Scraping der Beiträge von LinkedIn
Vor über einer Woche aktualisiert

Sie folgen jetzt einem Tutorial für die neueste Version von Octoparse. Wenn Sie zur Zeit eine ältere Version verwenden, empfehlen wir Ihnen kräftig es, ein Upgrade zu machen, weil sie schneller, leichter und stärker ist! Herunterladen und Installierung eines Upgrades hier, wenn Sie nicht so bereits machen!

LinkedIn ist eine gute Datenbank, um Informationen von verschiedenen Unternehmen zu erhalten. In diesem Tutorial zeigen wir Ihnen, wie Sie die Beiträge von LinkedIn.com scrapen können.

Zum Nachvollziehen können Sie diese URL im Tutorial verwenden:

In der rechten Seitenleiste sind die wichtigsten Schritte in diesem Tutorial. [Laden Sie die Demo-Aufgabe hier herunter]


1. „Go To Web Page“ - Öffnen die Ziel-Webseite

  • Geben Sie die URL der Startseite ein und klicken Sie auf „Start“.

mceclip0.png


2. Einloggen in die Webseite - um die Daten zu erhalten

  • Klicken Sie auf „Sign in“ Button un dann wählen Sie „Clcik URL“, um die Seite einzutreten.

Sign_in.jpg
  • Nachdem die Seite geladen ist, klicken Sie auf den E-Mail-Kasten und wählen SIe „Enter text“.

Enter_email.jpg
  • Geben Sie die E-Mail Adresse ein und dann klicken Sie auf „Confirm“. (Machen Sie keine Sorge, dass Octoparse Ihre persönliche Information nicht behalten wird.)

Confirm_email.jpg
  • Klicken Sie auf den Passwort-Kasten und klicken Sie auch auf „Enter text“. Wiederholen Sie die oben genannten Schritte.

  • Klicken Sie auf „Sign in“ und wählen Sie „Click button“.

Click_sign_in.jpg
  • Stellen Sie AJAX-Timeout als 10s ein.

AJAX_timeout.jpg


3. Automatische Detektion der Webseite - um einen Workflow zu erstellen

  • Selektieren Sie „Auto-detect web page data“.

autodetect.jpg
  • Warten Sie, bis die Detektion abgeschlossen ist. Dann klicken Sie auf „Edit“.

Edit_scroll.jpg
  • Klicken Sie auf „Create workflow“.

mceclip2.png
  • Klicken Sie auf „Scroll Page“, kreuzen Sie die Frequenz des Scrollen „for one screen“ an und stellen Sie die Frequenz von „Repeat“ und „Wait time“ ein.

set_up_scroll_repeats.jpg
  • Gehen Sie zur Datenvorschau, klicken Sie doppelt auf den Zeilekopf, um ihn umzubenennen, oder klicken Sie auf ... Zeichen, um ein Feld zu löschen.

srghesgd.gif


4. Modifizieren des XPath von Loop-Item - um mehr Beiträge zu lokalisieren

Die Seiten vom LinkedIn sind sehr kompliziert. Der automatisch generierte XPath kann nicht so gut funktinieren. Deshalb sollten wir XPath manuell aktualisieren.

  • Klicken Sie auf „Loop item“ und geben Sie den XPath ein: //div[contains(@class,'search-results-contain')]//h2/../..

  • Klicken Sie auf „Apply“ zur Speicherung.

Modify_loop_Xpath.jpg


5. Ausführung der Aufgabe - um die Daten zu bekommen

  • Klicken Sie auf „Save“.

  • Klicken Sie auf „Run“ oben links.

  • Wählen Sie „Run task on your device“, um die Aufgabe auf Ihrem Computer auszuführen.

NOTIZ: Wir empfehlen Ihnen es nicht, dass die Aufgabe in der Cloud ausgeführt wird, weil die Webseite es detektieren würde, dass Sie mit einem verdächtigen IP eingeloggt haben.

mceclip7.png


Hier ist die Beispielausgabe.

mceclip1.png
Hat dies Ihre Frage beantwortet?