Scrapen Stellenanzeigen von Glassdoor
Thursday, June 10, 2021 4:04 PMSie folgen jetzt einem Tutorial für die neueste Version von Octoparse. Wenn Sie zur Zeit eine ältere Version verwenden, empfehlen wir Ihnen kräftig es, ein Upgrade zu machen, weil sie schneller, leichter und stärker ist! Herunterladen und Installierung eines Upgrades hier, wenn Sie nicht so bereits machen!
Glassdoor ist eine der weltweit führenden Plattformen für Informationen über Jobs und Unternehmen, die Menschen bei der Suche nach einem geeigneten Arbeitsplatz helfen soll.
In diesem Tutorial stellen wir Ihnen vor, wie Sie mit Octoparse Informationen von glassdoor.com scrapen können.
Wenn Sie die Aufgabe von Grund auf selbst erstellen möchten, lesen Sie bitte das Tutorial weiter.
Zum Nachvollziehen können Sie diese URL im Tutorial verwenden:
https://www.glassdoor.com/Job/us-marketing-manager-jobs-SRCH_IL.0,2_IN1_KO3,20.htm
Hier sind die wichtigsten Schritte in diesem Tutorial: [Aufgabendatei hier herunterladen]
-
Detektieren automatisch die Daten von der Webseite - Erstellen einen Workflow
-
Modifizieren den XPath der Datenfelder - um die Felder genauer zu lokalisieren
-
Klicken in jeden Produkt-Link, um weitere Informationen zu scrapen
-
Erstellen "Extract data" - um benutzerdefinierte Datenfelder für detaillierte Jobinfo hinzuzufügen
-
Speichern und starten - um Ihre gewünschten Daten zu erhalten
1. "Go To Web Page" - Öffnen die Ziel-Webseite
-
Geben Sie die Beispiel-URL ein und klicken Sie auf "Start".
2. Detektieren automatisch die Daten von der Webseite - Erstellen einen Workflow
-
Klicken auf "Auto-detect web page data" und warten, bis die Detektion abgeschlossen ist
-
Überprüfen Sie die Datenfelder in der Datenvorschau, und Sie können auch die unerwünschten Felder löschen oder Felder umbenennen, falls erforderlich
-
Klicken auf "Create workflow"
3. Modifizieren den XPath der Datenfelder - um die Felder genauer zu lokalisieren
Der automatisch generierte XPath einiger Felder muss geändert werden, um sicherzustellen, dass Octoparse korrekte Daten extrahiert.
-
Klicken auf "More" Button, der in der Nähe vom Datenfeld liegt, um seine Einstellungen zu ändern
-
Wählen "Customize XPath"
-
Geben Sie den Matching-XPath ein
-
Klicken Sie auf "Apply" zur Speicherung der Änderungen
Wir haben schon für Sie einige weitverbereitete XPaths der Felder vorgebereitet. Sie können einfach sie kopieren und geben Sie dann sie in Octoparse. Hab Spaß!
-
Job Title: //a[@data-test="job-link"]
-
Company: //div[contains(@class, "align-items-start")]/a
-
Location: //a[@data-test="job-link"]/following-sibling::div[1]
-
Salary: //span[@data-test="detailSalary"]
-
Rating: //a[@class='jobLink']/following-sibling::span
-
Post Date: //div[@data-test="job-age"]
Schritt 4:Klicken in jeden Produkt-Link, um weitere Informationen zu scrapen
Manchmal brauchen Sie vielleicht einige zusätzliche Daten über die Stellenanzeigen, wie Job-Verantwortlichungen und -Anforderungen. Da würde der nächste Schritt sein, dass man auf jeden Link der Jobliste klickt, um die Detailsinfo zu bekommen.
-
Klicken Sie auf das erste Item in der Jobliste.
-
Wählen Sie „Click element“ in der Tipps-Platte.
-
Erstellen Sie anpassendes AJAX-Timeout: 7-10s ist empfehlenswert.
Notiz: Wenn Sie sich dafür interessieren, wie Octoparse mit dem AJAX der Webseiten umgeht, können Sie hier checken.
Schritt 5: Erstellen "Extract data" - um benutzerdefinierte Datenfelder für detaillierte Jobinfo hinzuzufügen
-
Klicken Sie auf den Hinzufügen-Button, um einen Schritt im Workflow hinzuzufügen.
-
Klicken Sie auf „Extract Data“.
-
Klicken Sie auf „Add Custom Field“ in der Datenvorschau.
-
Klicken Sie auf „Capture data on the page“.
-
Geben Sie den Feldname als Job_detail ein.
-
Wählen Sie „Absolute XPath“.
-
Geben Sie den Matching-XPath in den Kasten ein: //div[@class="jobDescriptionContent desc"]
-
Klicken Sie auf „Confirm“ zur Speicherung der Einstellungen.
Schritt 6: Speichern und starten - um Ihre gewünschten Daten zu erhalten
Vor der Ausführeng der Aufgabe würden Sie einen erstellten Workflow wie folgend ansehen:
-
Klicken Sie auf „Save“ ganz oben rechts, um Ihre Aufgabe zu speichern.
-
Klicken Sie auf „Run“ und warten Sie, bis das Fenster eines ausführenden Aufgabe angezeigt wird.
-
Wählen Sie „Run on your device“, um die Aufgabe mit Ihrem lokalen Gerät auszuführen.
-
Warten Sie, bis die Aufgabe abgeschlossen ist.
Hier sind die Beispieldaten.