Scrapen die Jobs von LinkedIn
Friday, June 04, 2021 10:16 AMLinkedIn ist eine gute Datenbank, um wertvolle Job-Informationen zu finden. In diesem Tutorial stellen wir Ihnen vor, wie Sie Job-Informationen von LinkedIn.com scrapen können.
Zum Nachvollziehen können Sie die URL im Tutorial verwenden:
Wir werden Daten wie Titel, Unternehmen, Ebene, Typ, Funktion und Branche mit Octoparse scrapen.
Bevor wir damit anfangen, stellen Sie bitte fest, dass Sie unsere neueste Version 8.1 heruntergeladen haben (Folgen Sie bitte der Anleitung zum Herunterladen: Neuigkeiten: Octoparse 8.1 Beta wird veröffentlicht!) LinkedIn kann man nicht mehr mit Octoparse 7.3.0 scrapen.
Die Website wendet die Technik „unendliches Scrollen“ mit einem Button "Mehr anzeigen" an, um mehr Bewertungen zu laden. Nachdem wir die Seite etwa 6 Mal nach unten gescrollt haben, taucht eine "Mehr anzeigen"-Button auf, und wenn wir weiterhin Bewertungen laden möchten, müssen wir auf den Button klicken.
Hier sind die wichtigsten Schritte in diesem Tutorial. [Laden Sie die Demo-Aufgabe von hier herunter]
1. "Go To Web Page" - Öffnen die Ziel-Webseite
2. Automatische Detektion der Webseite - Erstellen einen Workflow
3. Klicken auf den Button "Mehr anzeigen" - weitere Bewertungen laden
4. Klicken in jeden Link, um detailliertere Informationen zu erhalten
5. Wählen die Daten für die Extraktion aus
6. Extraktion starten - Führen die Aufgabe aus und Erhalten Daten
1. "Go To Web Page" - Öffnen die Ziel-Webseite
• Geben Sie die URL der Startseite ein und klicken Sie auf "Start
2. Automatische Detektion der Webseite- Erstelleneinen Workflow
• Klicken Sie auf "Auto-detect the web page data" und warten Sie, bis die Detektion abgeschlossen ist
• Überprüfen Sie die Datenfelder in der Datenvorschau, und Sie können auch die unerwünschten Felder löschen oder Felder umbenennen, falls erforderlich
• Klicken Sie auf "Edit" unter der Option "Add page scroll" in Tipps
• Stellen Sie die Wartezeit auf 4-5 Sekunden ein (Stellen Sie sicher, dass die Zeit lang genug ist, damit die Seite neue Bewertungen laden kann)
• Klicken Sie im Tipps-Bedienfeld auf "Create workflow".
3. Loop-Klicken auf den Button"Mehr anzeigen" - um mehr Jobs zu laden
• Wählen Sie in "Tipps" den Button "Click on a 'Load More' button"
• Wählen Sie den Button "See more jobs" auf der Webseite
• Stellen Sie die Anzahl der Klicks ein, je nachdem wie viele Jobs Sie benötigen
• Klicken Sie auf "Confirm"
• Stellen Sie AJAX-Wartezeit als 5s ein
4. Klicken in jeden Link, um detailliertere Informationen zu erhalten
• Wählen Sie “Click on link(s) to scrape the linked page(s)” auf dem Tipps-Panel
• Wählen Sie "Click on an extracted data field" und wählen Sie die "resultcard__fullcardlink_URL" aus dem Dropdown-Menü (Sie können in der Datenvorschau bestätigen, ob es der richtige Link ist)
• Klicken Sie auf "Confirm"
• Öffnen Sie die Einstellungen von der Aktion "Click URLs in the list"
• Deaktivieren Sie die Option "Open in a new tab"
• Wählen Sie "Load with AJAX" und stellen Sie den AJAX-Wartezeit auf 5-7s ein
• Bestätigen Sie mit "OK"
5. Wählen die Daten für die Extraktion aus
• Klicken Sie auf die Daten, die Sie extrahieren möchten
• Wählen Sie "Extract the text of the selected element" in "Tipps"
• Wiederholen Sie die Schritte, bis Sie alle Daten erhalten, die Sie extrahieren möchten
• Bearbeiten Sie den Namen der Datenfelder, falls erforderlich
6. Extraktion starten - Führen die Aufgabe aus und Erhalten Daten
• Klicken Sie auf "Save"
• Klicken Sie auf "Run" oben links
• Wählen Sie "Run task on your device", um die Aufgabe auf Ihrem Computer auszuführen, oder wählen Sie "Run task in the cloud ", um die Aufgabe in der Cloud auszuführen (nur für Premium-Benutzer)
Hier ist die Beispielausgabe.