undefined

Scrapen Stellenanzeigen von Glassdoor  

Thursday, June 10, 2021 4:04 PM

Sie folgen jetzt einem Tutorial für die neueste Version von Octoparse. Wenn Sie zur Zeit eine ältere Version verwenden, empfehlen wir Ihnen kräftig es, ein Upgrade zu machen, weil sie schneller, leichter und stärker ist! Herunterladen und Installierung eines Upgrades hier, wenn Sie nicht so bereits machen!

 

Glassdoor ist eine der weltweit führenden Plattformen für Informationen über Jobs und Unternehmen, die Menschen bei der Suche nach einem geeigneten Arbeitsplatz helfen soll.

In diesem Tutorial stellen wir Ihnen vor, wie Sie mit Octoparse Informationen von glassdoor.com scrapen können.

 

 Glassdoor

 

Wenn Sie die Aufgabe von Grund auf selbst erstellen möchten, lesen Sie bitte das Tutorial weiter.

Zum Nachvollziehen können Sie diese URL im Tutorial verwenden:

https://www.glassdoor.com/Job/us-marketing-manager-jobs-SRCH_IL.0,2_IN1_KO3,20.htm

 

Hier sind die wichtigsten Schritte in diesem Tutorial: [Aufgabendatei hier herunterladen]

  1. "Go To Web Page" - Öffnen die Ziel-Webseite

  2. Detektieren automatisch die Daten von der Webseite - Erstellen einen Workflow

  3. Modifizieren den XPath der Datenfelder - um die Felder genauer zu lokalisieren

  4. Klicken in jeden Produkt-Link, um weitere Informationen zu scrapen

  5. Erstellen "Extract data" - um benutzerdefinierte Datenfelder für detaillierte Jobinfo hinzuzufügen

  6. Speichern und starten - um Ihre gewünschten Daten zu erhalten

 


1. "Go To Web Page" - Öffnen die Ziel-Webseite

  • Geben Sie die Beispiel-URL ein und klicken Sie auf "Start".

 

 Start

 


2. Detektieren automatisch die Daten von der Webseite - Erstellen einen Workflow

  • Klicken auf "Auto-detect web page data" und warten, bis die Detektion abgeschlossen ist

 

 Auto-detect web page data

 

  • Überprüfen Sie die Datenfelder in der Datenvorschau, und Sie können auch die unerwünschten Felder löschen oder Felder umbenennen, falls erforderlich

 

 Datenvorschau

 

  • Klicken auf "Create workflow"

 

 Create Workflow

 


3. Modifizieren den XPath der Datenfelder - um die Felder genauer zu lokalisieren

Der automatisch generierte XPath einiger Felder muss geändert werden, um sicherzustellen, dass Octoparse korrekte Daten extrahiert.

  • Klicken auf "More" Button, der in der Nähe vom Datenfeld liegt, um seine Einstellungen zu ändern

  • Wählen "Customize XPath"

 

 Customize XPath

 

  • Geben Sie den Matching-XPath ein

  • Klicken Sie auf "Apply" zur Speicherung der Änderungen

 

 Apply

 

Wir haben schon für Sie einige weitverbereitete XPaths der Felder vorgebereitet. Sie können einfach sie kopieren und geben Sie dann sie in Octoparse. Hab Spaß!

  • Job Title: //a[@data-test="job-link"]

  • Company: //div[contains(@class, "align-items-start")]/a

  • Location: //a[@data-test="job-link"]/following-sibling::div[1]

  • Salary: //span[@data-test="detailSalary"]

  • Rating: //a[@class='jobLink']/following-sibling::span

  • Post Date: //div[@data-test="job-age"]

 


Schritt 4:Klicken in jeden Produkt-Link, um weitere Informationen zu scrapen

Manchmal brauchen Sie vielleicht einige zusätzliche Daten über die Stellenanzeigen, wie Job-Verantwortlichungen und -Anforderungen. Da würde der nächste Schritt sein, dass man auf jeden Link der Jobliste klickt, um die Detailsinfo zu bekommen.

  • Klicken Sie auf das erste Item in der Jobliste.

  • Wählen Sie „Click element“ in der Tipps-Platte.

 

 in jeden Produkt Link klicken

 

  • Erstellen Sie anpassendes AJAX-Timeout: 7-10s ist empfehlenswert.

 

 AJAX

 

Notiz: Wenn Sie sich dafür interessieren, wie Octoparse mit dem AJAX der Webseiten umgeht, können Sie hier checken.

 


Schritt 5: Erstellen "Extract data" - um benutzerdefinierte Datenfelder für detaillierte Jobinfo hinzuzufügen

  • Klicken Sie auf den Hinzufügen-Button, um einen Schritt im Workflow hinzuzufügen.

  • Klicken Sie auf „Extract Data“.

 

 Extract data

 

  • Klicken Sie auf „Add Custom Field“ in der Datenvorschau.

  • Klicken Sie auf „Capture data on the page“.

 

 Capture data on the page

 

  • Geben Sie den Feldname als Job_detail ein.

  • Wählen Sie „Absolute XPath“.

  • Geben Sie den Matching-XPath in den Kasten ein: //div[@class="jobDescriptionContent desc"]

  • Klicken Sie auf „Confirm“ zur Speicherung der Einstellungen.

 

 Confirm

 


Schritt 6: Speichern und starten - um Ihre gewünschten Daten zu erhalten

Vor der Ausführeng der Aufgabe würden Sie einen erstellten Workflow wie folgend ansehen:

 

 Workflow

 

  • Klicken Sie auf „Save“ ganz oben rechts, um Ihre Aufgabe zu speichern.

  • Klicken Sie auf „Run“ und warten Sie, bis das Fenster eines ausführenden Aufgabe angezeigt wird.

  • Wählen Sie „Run on your device“, um die Aufgabe mit Ihrem lokalen Gerät auszuführen.

  • Warten Sie, bis die Aufgabe abgeschlossen ist.


Hier sind die Beispieldaten.

 Beispiel

Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen