Sie folgen jetzt einem Tutorial für die neueste Version von Octoparse. Wenn Sie zur Zeit eine ältere Version verwenden, empfehlen wir Ihnen kräftig es, ein Upgrade zu machen, weil sie schneller, leichter und stärker ist! Herunterladen und Installierung eines Upgrades hier, wenn Sie nicht so bereits machen!

Indeed ist eine der populärsten Websites für Stellenanzeigen. Mit Web Scraping können Sie die Job-Informationen einfach analysieren. In diesem Tutorial zeigen wir Ihnen, wie Sie mit Octoparse die Stellenanzeigen von Indeed.com scrapen.

Bevor wir mit dem Scrapen anfangen, müssen wir zuerst die URL der Zielergebnisseite erhalten, indem wir nach einem Schlüsselwort und einem Ort suchen.

Nachfolgend ist eine Beispiel-URL zur Demonstration:

https://www.indeed.com/jobs?q=devops&l=Dallas-Fort%20Worth%2C%20TX&radius=50

Der einfachste Weg zum Scrapen der Website ist, direkt die Indeed-Vorlagen zu benutzen. Sie brauchen nur die URL in die Vorlage einzugeben, und warten, bis die Daten gescrapt werden. Für weitere Details können Sie das Tutorial nachlesen: Aufgaben-Vorlagen

Wenn Sie noch wissen möchten, wie man von Anfang an eine Aufgabe erstellen kann, sollten Sie das ganze Tutorial sehen.

In der rechten Seitenleiste sind die wichtigsten Schritte in diesem Tutorial. [Aufgabendatei hier herunterladen]

1. „Go To Web Page“ - Öffnen die Ziel-Webseite

Geben Sie die URL der Startseite ein und klicken Sie auf „Start“.

2. Erstellen der Paginierung - Daten Scraping aus mehreren Seiten

Klicken Sie auf den Nächste Button oder das > Zeichen auf der Seite.
Wählen Sie „Loop click single element“ auf der Tipps-Platte.

Eine Paginierung würde wie folgend im Workflow erstellt.

Um sicherzustellen, dass die erstellte Paginierung gut funktionieren könnte, sollten wir den XPath davon modifizieren.

Klicken Sie auf „Pagination“.
Geben Sie den XPath in den Kasten ein: //a[@aria-label="Next"]
Klicken Sie auf „Apply“ zur Speicherung.

Tipps: Wenn Sie bebieliges Pop-Up auf der Webseite ansehen würden, wechseln Sie bitte Ihren Modus in „Browse“, indem Sie auf den Button, der ganz oben rechts liegt, klicken. Danach schließen Sie den Browse-Modus und erstellen den Workflow weiter.

3. Erstellen von „Loop Item“ - Scraping der Jobinfo

Selektieren Sie den ersten beiden Jobinfo-Kästen. (Notieren zum Wählen des ganzen Kasten, der alle gewünschten Informationen enthält.)
Wählen Sie „Extract text of the selected elements“ aus.

Ein Loop-Item würde im Workflow erstellt.

Aber Sie hätten wahrscheinlich bemerkt, dass alle Informationen in einer Zelle gescrapt werden. Wir brauchen manuell sie in unterschiedliche Felder teilen.

Selektieren Sie den ersten Jobtitel (in den hervorgehobenen Bereich).
Wählen Sie „Extract the text of the element“.

Wiederholen Sie die oben genannten Schritte, um die anderen Informaionen aus dem ersten Jobskasten zu scrapen.
Klicken Sie doppelt auf den Feldnamen, um ihn bei Bedarf umzubenennen.

4. Einstellen einer Wartezeit für „Extract Data“ - Kontrollieren der Scraping-Geschwindigkeit

Klicken Sie auf „Extract Data“.
Klicken Sie auf „Options“.
Klicken Sie auf „Wait before action“.
Stellen Sie die Wartezeit als 1-2s ein.

5. Starten der Extraktion - Führen die Aufgabe aus und Erhalten Daten

Klicken Sie auf „Save“.
Klicken Sie auf „Run“ oben links.
Wählen Sie „Run on your device“, um die Aufgabe mit Ihrem lokalen Gerät auszuführen, oder wählen Sie „Run in the Cloud“, um die Aufgabe auf unseren Cloud-Servern auszuführen (nur für Premium-Benutzer)

Hier sind Daten für die Beispielaufgabe.

Verwandte Artikel

Scraping der Geschäftsdetails von Yell (V8.4)

Scraping der Daten von Walmart

Scraping der Immobiliendaten von Realtor.com (V8.4)

Scraping der Listendaten von XING

Scraping der Jobdaten von Monster