Sie folgen jetzt einem Tutorial für die neueste Version von Octoparse. Wenn Sie zur Zeit eine ältere Version verwenden, empfehlen wir Ihnen kräftig es, ein Upgrade zu machen, weil sie schneller, leichter und stärker ist! Herunterladen und Installierung eines Upgrades hier, wenn Sie nicht so bereits machen!

Glassdoor ist eine der weltweit führenden Plattformen für Informationen über Jobs und Unternehmen, die Menschen bei der Suche nach einem geeigneten Arbeitsplatz helfen soll.

In diesem Tutorial stellen wir Ihnen vor, wie Sie mit Octoparse Informationen von glassdoor.com scrapen können.

Wenn Sie die Aufgabe von Grund auf selbst erstellen möchten, lesen Sie bitte das Tutorial weiter.

Zum Nachvollziehen können Sie diese URL im Tutorial verwenden:

https://www.glassdoor.com/Job/us-marketing-manager-jobs-SRCH_IL.0,2_IN1_KO3,20.htm

In der rechten Seitenleiste sind die wichtigsten Schritte in diesem Tutorial. [Aufgabendatei hier herunterladen]

1. "Go To Web Page" - Öffnen die Ziel-Webseite

Geben Sie die Beispiel-URL ein und klicken Sie auf "Start".

2. Detektieren automatisch die Daten von der Webseite - Erstellen einen Workflow

Klicken auf "Auto-detect web page data" und warten, bis die Detektion abgeschlossen ist

Überprüfen Sie die Datenfelder in der Datenvorschau, und Sie können auch die unerwünschten Felder löschen oder Felder umbenennen, falls erforderlich

Klicken auf "Create workflow"

3. Modifizieren den XPath der Datenfelder - um die Felder genauer zu lokalisieren

Der automatisch generierte XPath einiger Felder muss geändert werden, um sicherzustellen, dass Octoparse korrekte Daten extrahiert.

Klicken auf "More" Button, der in der Nähe vom Datenfeld liegt, um seine Einstellungen zu ändern
Wählen "Customize XPath"

Geben Sie den Matching-XPath ein
Klicken Sie auf "Apply" zur Speicherung der Änderungen

Wir haben schon für Sie einige weitverbereitete XPaths der Felder vorgebereitet. Sie können einfach sie kopieren und geben Sie dann sie in Octoparse. Hab Spaß!

Job Title: //a[@data-test="job-link"]
Company: //div[contains(@class, "align-items-start")]/a
Location: //a[@data-test="job-link"]/following-sibling::div[1]
Salary: //span[@data-test="detailSalary"]
Rating: //a[@class='jobLink']/following-sibling::span
Post Date: //div[@data-test="job-age"]

Schritt 4: Klicken in jeden Produkt-Link, um weitere Informationen zu scrapen

Manchmal brauchen Sie vielleicht einige zusätzliche Daten über die Stellenanzeigen, wie Job-Verantwortlichungen und -Anforderungen. Da würde der nächste Schritt sein, dass man auf jeden Link der Jobliste klickt, um die Detailsinfo zu bekommen.

Klicken Sie auf das erste Item in der Jobliste.
Wählen Sie „Click element“ in der Tipps-Platte.

Erstellen Sie anpassendes AJAX-Timeout: 7-10s ist empfehlenswert.

Notiz: Wenn Sie sich dafür interessieren, wie Octoparse mit dem AJAX der Webseiten umgeht, können Sie hier checken.

Schritt 5: Erstellen "Extract data" - um benutzerdefinierte Datenfelder für detaillierte Jobinfo hinzuzufügen

Klicken Sie auf den Hinzufügen-Button, um einen Schritt im Workflow hinzuzufügen.
Klicken Sie auf „Extract Data“.

Klicken Sie auf „Add Custom Field“ in der Datenvorschau.
Klicken Sie auf „Capture data on the page“.

Geben Sie den Feldname als Job_detail ein.
Wählen Sie „Absolute XPath“.
Geben Sie den Matching-XPath in den Kasten ein: //div[@class="jobDescriptionContent desc"]
Klicken Sie auf „Confirm“ zur Speicherung der Einstellungen.

Schritt 6: Speichern und starten - um Ihre gewünschten Daten zu erhalten

Vor der Ausführeng der Aufgabe würden Sie einen erstellten Workflow wie folgend ansehen:

Klicken Sie auf „Save“ ganz oben rechts, um Ihre Aufgabe zu speichern.
Klicken Sie auf „Run“ und warten Sie, bis das Fenster eines ausführenden Aufgabe angezeigt wird.
Wählen Sie „Run on your device“, um die Aufgabe mit Ihrem lokalen Gerät auszuführen.
Warten Sie, bis die Aufgabe abgeschlossen ist.

Hier sind die Beispieldaten.

Verwandte Artikel

Scraping der Artikel von Medium

Scraping der Daten von Walmart

Scraping der Immobiliendaten von Realtor.com (V8.4)

Scraping der Kundenbewertungen von Tripadviser

Scraping der Listendaten von XING