Scraping der Job-Infos von LinkedIn
Tuesday, June 14, 2022 5:54 PMLinkedIn ist eine gute Datenbank, um wertvolle Job-Informationen zu finden. In diesem Tutorial erfahren Sie, wie man die Job-Infos von LinkedIn extrahieren kann. Dazu ist eine URL als Beispiel herausgegeben und die Ziedaten beziehen sich um Titel, Unternehmen, Typ, Funktion und Branche.
Überblick
Schritt 1: „Go To Web Page” - Öffnen Sie die Ziel-Webseite.
• Geben Sie die URL auf der Startseite ein und klicken Sie auf „Start”.

Schritt 2: Machen Sie eine Erstellung von Scrollen der Webseite.
• Klicken Sie auf „Go to web page”.
• Klicken Sie auf „Options”.
• Wählen Sie dann „Scroll down the page after it is loaded”.
• Wählen Sie die Option „to the bottom of the page” und stellen Sie die Werte von „scroll times” und „wait time” ein.
• Klicken Sie auf „Apply”.

Schritt 3: Erstellen Sie einen Workflow nach der automatische Detektion der Webseite.
• Klicken Sie auf „Auto-detect web page data” und warten Sie, bis die Detektion abgeschlossen ist.

• Überprüfen Sie die Datenfelder in der Datenvorschau, und Sie können auch bei Bedarf die unerwünschten Felder löschen oder Felder umbenennen.

• Deaktivieren Sie „Add a page scroll” und klicken Sie auf „Create workflow”.

Schritt 4: Klicken Sie auf jeden Ziel-Link, um Detail-Seite aufzumachen.
• Klicken Sie auf „Click on link(s) to scrape the linked page(s)”.
• Wählen Sie „Click on an extracted data field” und dann „basecard__fulllink_URL” vom Dropdown-Menü.
• Klicken Sie auf „Confirm”.

• Gehen Sie zur Einstellung von „Click URLs in the list”.
• Klicken Sie auf „Options”.
• Deaktivieren Sie „Open in a new tab”.
• Aktivieren Sie dann „Load with AJAX” und stellen Sie den Wert von „AJAX timeout” auf 5-7s.
• Klicken Sie auf „Apply” zum Bestätigen.

Schritt 5: Erstellen Sie ein „Loop Item” um Detail-Infos jedes Linkes zu erhalten.
• Klicken Sie auf die Daten nach Ihrem Badarf.
• Wählen Sie dann „Extract the text of the selected element” von Tips.
• Wiederholen Sie die zwei vorliegenden Schritte, bis alle von Ihnen gewünschten Daten im angezeigt sind.

• Editieren Sie die Namen von jedem Data.

• Deaktivieren Sie „Extract data in the loop”.

• Stellen Sie den Wert von „Wait before actions” auf 7s.

Schritt 6: Modifizieren Sie XPath von „Loop Item”, um den Button „show more jobs” zu lokalisieren.
• Klicken Sie auf „Loop Item”.
• Ändern Sie „Matching XPath” mit Code: //button[@aria-label="Load more results"]
• Klicken Sie auf „Apply”.

Schritt 7: Scraping starten, um die Aufgabe auszuführen und Daten zu erhalten.
• Klicken Sie auf „Save”.
• Klicken Sie auf „Run”.
• Wählen Sie „Run on your device”, um die Aufgabe mit Ihrem lokalen Gerät auszuführen.
Tipps!
LinkedIn-Aufgaben können nur lokal ausgeführt werden, sonst wird Ihr Konto von LinkedIn blockiert.
Hier ist eine Datenausgabe als Beispiel.

Autor*in: Das Octoparse Team