Alle Kollektionen
Octoparse 101
Lektion 4: Test - Ausführung der Aufgabe
Lektion 4: Test - Ausführung der Aufgabe
Vor über einer Woche aktualisiert

Ist es nicht aufregend, dass Sie kurz davor sind, Ihre erste Scraping-Aufgabe zu erledigen? Es gibt nun nur noch eine sinnvolle Sache, die Sie tun sollten (oder besser tun sollten), bevor Sie Ihre Aufgabe ausführen - Testen Sie Ihren Workflow Schritt für Schritt, um sicherzustellen, dass die Scraping-Aufgabe genau so funktionieren wie erwartet. Mit dem Test können Sie überprüfen, ob Sie die Einstellungen Ihrer Aufgabe verändern müssen, um die Daten exakt zu extrahieren.

Um den Prozess zu demonstrieren, verwenden wir weiterhin die Testseite als Beispiel: http://test-sites.octoparse.com/?product_cat=e-commerce-category-1.

Workflow-Schritte testen

Es ist immer notwendig, dass man es im Kopf erhältet, dass die Schritte des Workflows stets vom Anfang bis Boden und von innerhalb bis außerhalb ausgelesen werden.

Deshalb für unser Beispiel, sollten wir zuerst die Schritte in dieser Ordnung überprüfen:

  • Schritt 1 „Go to Web Page“ → testen, ob die Webseite richtig geladen ist

  • Schritt 2 „Pagination“ → testen, ob der Button „Next Page“ richtig gewählt ist

  • Schritt 3 „Click to Paginate“ → testen, ob die Webseite ordentlich paginiert

  • Schritt 4 „Loop Item“ → testen, ob die Liste der Elemente vollständig und korrekt ist

  • Schritt 5 „Extract Data“ → testen, ob die Daten korrekt ausgewählt und extrahiert werden

Schritte überprüfen

Es ist erwähnenswert, dass nicht alle Aufgaben gleich aussehen. Vielleicht haben Sie eine ganz andere Aufgabe zu testen, aber die Methodik ist immer verfügbar für alle Sorten. Fangen wir jetzt an!


Schritt 1 Klicken auf „Go to Web Page“

Sobald Sie auf den Button klicken, sollte die Webseite im integrierten Browser geladen sind. Wenn die Webseite gut geladen wird, müssen Sie sich darum nicht sorgen; es gibt jedoch ein paar Dinge, auf die Sie immer achten sollten.

1.1 Wenn die Webseite mit unendlichem Scrollen geladen ist → Sie sollten „Scroll down the page after it is loaded“ wählen und die entsprechenden Einstellungen vervollständigen.

Scroll down the page after it is loaded

1.2 Wenn die Webseite länger als üblich geladen ist → Sie könnten vielleicht den Timeout für die Seite erhöhen. Klicken Sie auf „General“„Timeout“, um eine angepassende Pausezeit auszuwählen.

Timeout

Schritt 2 Klicken auf „Pagination“ Kasten

Um zu sichern, dass die Paginierung funktioniert, müssen wir zwei Sachen überprüfen.

  • Ob der Button/der Pfeil „Next Page“ richtig gewählt wird.

  • Ob den Prozess der Paginierung auf allen Seiten gut funktioniert, d.h. es muss korrekt paginiert werden von Seite 1 zu Seite 2, Seite 2 zu Seite 3, Seite 3 zu Seite 4, usw.

Nachdem Sie auf das Kästchen „Pagination“ geklickt haben, gehen Sie zu dem Element mit Highlight auf der Webseite und überprüfen Sie, ob der Buttton „Next Page“ richtig lokalisiert wurde. Wenn der richtige Buttton „Next Page“ nicht gewählt würde, müssen Sie eventuell manuell bei der Anpassung des Element-XPath dies korrigieren.

Paginierung von Next page

Schritt 3 Klicken auf „Click to Paginate“

Wenn Sie auf „Click to Paginate“ klicken, weisen Sie Octoparse an, auf den im Schritt 2 definierte Button „Next Page“ zu klicken. Wenn alles in Ordnung wäre, sollte es von Seite 1 zu Seite 2 gehen. Wiederholen Sie diesen zweistufigen Prozess (Klicken Sie auf das Kästchen „Pagination“ und dann auf „Click to Paginate“) so häufig wie nötig, um sicherzustellen, dass die Paginierung auf allen sequenziellen Seiten korrekt funktioniert. Wenn die Webseite auf einer der Seiten nicht richtig paginiert, Anpassung des Element-XPath in Schritt 2 und testen Sie noch einmal.

Tipps!

Sehen Sie sich diese Tutorials zur Fehlerbehebung bei der Paginierung an:


Schritt 4 Klicken auf das Kästchen „Loop Item“

Das Testen des „Loop Item“ ist im Wesentlichen eine Bestätigung, ob alle gewünschten Elemente korrekt ausgewählt wurden.

Nach dem Klicken gehen Sie im integrierten Browser auf die Webseite und stellen Sie sicher, dass alle gewünschten Elemente hervorgehoben werden.

auf Loop Item klicken

Tipps!

Wenn Ihre Liste beim Testen nicht vollständig wäre, können Sie sich die unten stehenden Ideen zur Fehlerbehebung ansehen:


Schritt 5 Klicken auf „Extract Data“

Hier ist der letzte Schritt - prüfen Sie, ob die Daten wie gewünscht extrahiert werden.

Prüfen Sie nach dem Klicken die Daten im Vorschaubereich und bestätigen Sie, ob dies die benötigten Daten sind.

auf Extract Data klicken

Tipps!

Wenn Sie leere Felder sehen oder falsch platzierte Daten finden, können Sie sich diese Tutorials ansehen:


Eine Test-Aufgabe ausführen

Nachdem Sie jeden Schritt im Aufgaben-Workflow überprüft haben, ist es der perfekte Zeitpunkt, eine Test-Aufgabe auf Ihrem lokalen Gerät auszuführen. Klicken Sie auf „Run“ und wählen Sie dann „Run task on your device“.

run task on your device

Sehen Sie nun zu, wie Ihre Daten extrahiert werden!

Situation sehen

Tipps!

Schauen Sie sich die FAQs unten an, um herauszufinden, warum Sie nicht die gewünschten Daten erhalten.


Jetzt wissen Sie schon, ob Ihre Aufgabe richtig funktioniert, ist es an der Zeit, wirklich Daten zu extrahieren! >> Lektion 5: Erhalten der Daten

Hat dies Ihre Frage beantwortet?