undefined

Scrapen Beiträge von LinkedIn

Friday, June 04, 2021 2:57 PM

Sie folgen jetzt einem Tutorial für die neueste Version von Octoparse. Wenn Sie zur Zeit eine ältere Version verwenden, empfehlen wir Ihnen kräftig es, ein Upgrade zu machen, weil sie schneller, leichter und stärker ist! Herunterladen und Installierung eines Upgrades hier, wenn Sie nicht so bereits machen!

 

LinkedIn ist eine gute Datenbank, um Informationen von verschiedenen Unternehmen zu erhalten. In diesem Tutorial zeigen wir Ihnen, wie Sie die Beiträge von LinkedIn.com scrapen können.

 

Zum Nachvollziehen können Sie diese URL im Tutorial verwenden:

https://www.linkedin.com/search/results/content/?keywords=google&origin=GLOBAL_SEARCH_HEADER&sid=DIi

 

Hier sind die wichtigsten Schritte in diesem Tutorial. [Laden Sie die Demo-Aufgabe hier herunter]

  1. „Go To Web Page“ - Öffnen die Ziel-Webseite

  2. Einloggen in die Webseite - um die Daten zu erhalten

  3. Automatische Detektion der Webseite - um einen Workflow zu erstellen

  4. Modifizieren des XPath von Loop-Item - um mehr Beiträge zu lokalisieren

  5. Ausführung der Aufgabe - um die Daten zu bekommen

 


1. „Go To Web Page“ - Öffnen die Ziel-Webseite

  • Geben Sie die URL der Startseite ein und klicken Sie auf „Start“.

 

 Start

 


2.Einloggen in die Webseite - um die Daten zu erhalten

  • Klicken Sie auf „Sign in“ Button un dann wählen Sie „Clcik URL“, um die Seite einzutreten.

 

 URL click

 

  • Nachdem die Seite geladen ist, klicken Sie auf den E-Mail-Kasten und wählen SIe „Enter text“.

 

 Enter text

 

  • Geben Sie die E-Mail Adresse ein und dann klicken Sie auf „Confirm“. (Machen Sie keine Sorge, dass Octoparse Ihre persönliche Information nicht behalten wird.)

 

 Confirm

 

  • Klicken Sie auf den Passwort-Kasten und klicken Sie auch auf „Enter text“. Wiederholen Sie die oben genannten Schritte.

  • Klicken Sie auf „Sign in“ und wählen Sie „Click button“.

 

 Click button

 

  • Stellen Sie AJAX-Timeout als 10s ein.


3.Automatische Detektion der Webseite - um einen Workflow zu erstellen

  • Selektieren Sie „Auto-detect web page data“.

 

 Auto-detect web page data

 

  • Warten Sie, bis die Detektion abgeschlossen ist. Dann klicken Sie auf „Edit“.

 

 Edit

 

  • Klicken Sie auf „Create workflow“.

 

 Create workflow

 

  • Klicken Sie auf „Scroll Page“, kreuzen Sie die Frequenz des Scrollen „for one screen“ an und stellen Sie die Frequenz von „Repeat“ und „Wait time“ ein.

 

 Scroll Page

 

  • Gehen Sie zur Datenvorschau, klicken Sie doppelt auf den Zeilekopf, um ihn umzubenennen, oder klicken Sie auf ... Zeichen, um ein Feld zu löschen.

 

 Datenfelder umbenennen

 


4.Modifizieren des XPath von Loop-Item - um mehr Beiträge zu lokalisieren

Die Seiten vom LinkedIn sind sehr kompliziert. Der automatisch generierte XPath kann nicht so gut funktinieren. Deshalb sollten wir XPath manuell aktualisieren.

  • Klicken Sie auf „Loop item“ und geben Sie den XPath ein: //div[contains(@class,'search-results-contain')]//h2/../..

  • Klicken Sie auf „Apply“ zur Speicherung.

 

 Modifizieren des XPath

 


5. Ausführung der Aufgabe - um die Daten zu bekommen

  • Klicken Sie auf „Save“.

  • Klicken Sie auf „Run“ oben links.

  • Wählen Sie „Run task on your device“, um die Aufgabe auf Ihrem Computer auszuführen.

NOTIZ: Wir empfehlen Ihnen es nicht, dass die Aufgabe in der Cloud ausgeführt wird, weil die Webseite es detektieren würde, dass Sie mit einem verdächtigen IP eingeloggt haben.

 

 Aufgabe ausführen

 


Hier ist die Beispielausgabe.

 Beispielausgabe

Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen