undefined

Lektion 1: Datenextraktion mit brandneuem Auto-Detect-Algorithmus

Tuesday, May 25, 2021 11:54 AM
Jetzt haben Sie bereits Octoparse auf Ihr Gerät heruntergeladen und die Grundlagen kennengelernt. Darum ist es nun an der Zeit, Ihr eigenes Scraping-Projekt zu starten!

 

Die meisten Webseiten (Verzeichnisse, E-Commerce, Immobilienseiten usw.) haben ein ähnliches Layout, d.h. eine Seite mit vielen Elementen, die in einer Liste dargestellt sind. Schauen wir ein paar Beispiele an.

 

Bestbuy.com

 Bestbuy

 

Amazon.de

 

Amazon

 

 

Der brandneue Auto-Detect-Algorithmus von Octoparse ist speziell für das Scrapen von Seiten dieser Art konzipiert. Er erkennt automatisch nach Auflistungsdaten (einschließlich Textelementen und Links), Button „Next page“, Button „load more“ und Scrolldown einer Seite sowie generiert dann automatisch die Scraping-Aufgabe.

 

In dieser Lektion werden wir durchlaufen, wie man durch die Nutzung des Auto-Detect-Algorithmuses Daten aus Webseiten extrahieren könnte.

 

Tipps!

Octoparse Hello World bietet eine Reihe von Testseiten, mit denen Sie die Datenextraktion aus verschiedenen Webseiten üben können.

 

 

Schritt 1 Erstellen Sie eine neue Aufgabe 

Treten Sie die Beispiel-URL „http://test-sites.octoparse.com/?product_cat=e-commerce-category-1“ in das Suchfeld oben auf der Startseite ein. Klicken Sie auf „Start“, um eine neue Aufgabe im fortgeschrittenen Modus zu erstellen.

beispiel url eintreten

 

Schritt 2 Datenextraktion per Auto-Detect

Octoparse lädt die URL der Webseite in den integrierten Browser und startet den Auto-Detect-Prozess automatisch. Warten Sie bitte geduldig, bis der Prozess abgeschlossen ist und weitere Informationen unter „Tips“ angezeigt werden. 

 

 auto-detect

 

 

Tipps!
Wenn die gewünschten Daten beim Laden der Seite nicht zugänglich sind, lesen Sie dieses Tutorial zu kennen, wie Sie mit der Webseite interagieren können, bevor die Daten automatisch detektiert werden.

 

 

 

Schritt 3 Prüfen Sie die Daten

Wenn die automatische Detektion fertig ist, folgen Sie den Anweisungen unter „Tipps“ und überprüfen Sie Ihre Daten im Vorschaubereich. Sie können die Datenfelder umbenennen oder diejenigen entfernen, die nicht benötigt sind. Die erkannten Daten werden auch auf der Webseite für Sie hervorgehoben.

 

Daten prüfen

 

 

 

Schritt 4 Bestätigen Sie Ihre Optionen

Gehen Sie nun zu „Tips“ und überprüfen Sie Ihre Optionen. Basierend auf der Art der erkannten Daten werden Ihnen eine Reihe von Optionen zur Auswahl angeboten. In diesem Beispiel werden Listendaten erkannt, so dass Ihnen die folgenden Optionen zur Verfügung stehen:

 

Optionen bestätigen

 

  1. Extract the data in the list - Auf Deutsch heißt es, dass die Daten in der Liste extrahiert werden. Diese Option ist standardmäßig ausgewählt, da Octoparse davon ausgeht, dass Sie dies auf jeden Fall tun müssen.
  2. Paginate to scrape more pages - Auf Deutsch heißt es, dass man auf den Button „Next“ klickt, um mehrere Seiten zu erfassen. Anscheinend hat Octoparse einen Button „Next“ auf der Seite erkannt. Checken Sie diese Option, wenn Sie möchten, dass Octoparse durch Klick auf den Button „Next“ Daten von weiteren Seiten erfassen kann.

 

 

Tipps!
Um herauszufinden, ob der erkannte Button der richtige ist, klicken Sie auf „Check“ und beobachten Sie, ob das entsprechende Element auf der Webseite hervorgehoben wird. Wenn Sie den Button „Next“ erneut auswählen müssen, klicken Sie auf „Edit“ und folgen Sie den Anweisungen unter „Tips“.

 

 Button checken

 

 

 

Schritt 5 Erstellen Sie einen Workflow

Nachdem Sie die Einstellungen bestätigt haben, klicken Sie auf „Create Workflow“.

 

 

Workflow erstellen

 

Octoparse würde automatisch einen Workflow auf der Grundlage der erkannten Daten und der gespeicherten Einstellungen generieren. Sie können wählen, ob Sie die Aufgabe jetzt ausführen oder den Workflow manuell bearbeiten.

 

 

 Workflow einstellen

 

Um zu erfahren, wie Sie den Workflow der Aufgabe optimieren können, fahren Sie bitte fort mit >> Lektion 2: Optiemierung Ihrer Aufgabe

 

 

Autor*in: Das Octoparse Team

 

 

Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen