Funktionvorstellung von „Loop Item“
Thursday, June 23, 2022 10:37 AMWenn Sie eine Scraping-Aufgabe in Octoparse erstellen, werden Sie irgendwann während des Prozesses ein „Loop Item“ brauchen. Die Aktion „Loop Item“ wird häufig für die Erfassung einer Liste von Elementen oder zum Paginieren durch die verschiedenen Seiten einer Website verwendet. In diesem Artikel werde ich genau erklären, wie „Loop Item“ in Octoparse funktioniert.
Übersicht
1. Was ist ein „Loop Item“?
Ein „Loop“ ist eine Programmierfunktion, die eine Anweisung kontinuierlich wiederholt, bis eine bestimmte Bedingung erreicht ist. Das „Loop Item“ in Octoparse ist wie ein Loop ähnlich. Ein „Loop Item“ wird normalerweise mit mehr als einer URL/einem Element erstellt, und dem Loop Item wird eine oder mehrere Aktion(en) hinzugefügt. Sobald ein „Loop Item“ erstellt wurde, wiederholt Octoparse die Aktionen für eine bestimmte Anzahl von Malen oder bis es keine Möglichkeit mehr gibt, die Aktionen zu wiederholen, z. B. wenn es keine nächste Seite mehr zum Umblättern gibt (wenn Sie die letzte Seite erreicht haben).
Lassen Sie uns ein Beispiel betrachten. Jetzt haben wir eine Liste von URLs zu erhalten.
Zuerst erstellen wir ein „Loop Item“ mit der Liste der URLs, dann fügen wir eine Aktion „Go to Web Page“ und eine Aktion „Extract Data“ innerhalb des Loop Items ein. Der Workflow würde wie folgt aussehen:
Dieser Arbeitsablauf besteht aus einer Reihe von Anweisungen, die Octoparse anweisen, die erste URL der URL-Liste zu nehmen, die Seite mit der Aktion „Go to Web Page“ zu laden und dann die Daten mit der Aktion „Extract Data“ zu scrapen. Dieselbe Aktion wird für alle URLs in der Liste wiederholt, bis die letzte URL genommen wurde, dann stoppt das Loop.
2. Einstellungen von „Loop Item“
Wenn Sie auf Loop-Items klicken und „General“ auswählen, werden Sie in das Einstellungsfenster übergeleitet. Lassen wir die verfügbaren Optionen sehen.
- · Action name: Hier können Sie den Namen des jeweiligen Loop-Elements ändern. Die Einstellung eines eindeutigen Namens für ein „Loop Item“ kann Ihnen bei der Sortierung helfen, wenn Sie mehr als ein „Loop Item“ in Ihrem Workflow haben.
- · Loop mode: Sie müssen den geeigneten Loop-Modus wählen, damit ein „Loop Item“ richtig funktioniert. Es gibt zusammen 6 Loop-Modi, deren Funktionen im Folgenden ausführlich erklärt wird.
- · Exit Loop: Neben dem automatischen Verlassen des Loops können Sie das Loop auch vorzeitig beenden, indem Sie die Anzahl der Wiederholungen festlegen.
-
· Wait before action: Mit dieser Funktion können Sie eine Wartezeit zwischen den einzelnen Wiederholungen einstellen.
3. 6 Loop-Modi und wie sie zu verwenden?
Es gibt zusammen 6 Loop-Modi: „Single Element“, „Variable List“, „Fixed List“, „List of URLs“, „Text List“ und „Scroll Page“.
Modus 1: Single Element - um ein bestimmtes Element auf der Seite zu lokalisieren
Octoparse würde die Aktionen für dasselbe Element immer wieder ausführen, bis das Element nicht mehr auf der Seite gefunden wird. Eine häufige Verwendung für ein einzelnes Element ist, wenn Sie möchten, dass Octoparse die Schaltfläche „Next Page“ wiederholt anklickt, bis Sie die letzte Seite erreicht haben (keine „Next Page“ mehr).
Modus 2: Variable List - um eine mit einzelner XPath-Abfrage verbundene Liste der Items zu lokalisieren
Octoparse würde die Aktionen auf die übereinstimmenden Elemente nacheinander ausführen, bis das letzte Element erreicht ist. „Variable List“ sollte verwendet werden, wenn die Anzahl der Elemente, die in einem Loop durchlaufen werden sollen, in verschiedene Seiten ungleich ist.
Modus 3: Fixed List - um eine Reihe von Items zu lokalisieren
Es ist ähnlich wie „Variable List“, aber „Fixed List“ stellt eine Liste von XPath-Abfragen dar, in der jede XPath ein einziges Element auf der Website lokalisiert. Es ist zu verwenden, wenn die Anzahl von Elemente auf alle Websites gleich ist.
Modus 4: List of URLs - um eine Liste von URLs durchzulaufen
Octoparse würde die URLs nacheinander öffnen. Es gibt insgesamt vier Methoden, um die URLs einzugeben. Schauen Sie hier an, um die unterschiedlichen Methoden zu wissen.
Modus 5: Text List - eine Liste von Zeichenketten
Wenn eine Texteliste verwendet wird, würde Octoparse die Zeichenketten auf der Seite Stück für Stück eingeben.
Modus 6: Scroll Page - eine neue Weise vom Scrollen
Dieser Modus wird für diese Websites verwendet, die unendlichen Scrollen brauchen sollten, um mehrere Information anzusehen. Diese Option kann es hilfen, während des Scrollen statt nach der Erledigung vom Scrollen die Daten zu scrapen.
Tipps!
- · Die Aufgaben mit „Fixed List“, „List of URLs“ und „Text List“ könnten in der Cloud aufgeteilt werden, sodass sie effizienter die Daten scrapen können.
- · „Variable List“ könnte in „Fixed List“ umgewandelt werden, um die Daten effizienter zu scrapen.
4. Erstellung von „Loop Item“
Es hängt von Ihren Scraping-Bedürfnissen und spezieller Struktur der Website ab, welche Art des Loop-Items Sie benötigen. In den folgenden Tutorials erfahren Sie, wie Sie ein „Loop Item“ für verschiedene Fällen erstellen können.
- · Datenextraktion einer Liste von Elemente auf eine Website
- · Klicken auf jeden Link in einer Liste und scrapen Daten von Detailseite
- · Datenextraktion mit einer Liste von URLs
- · Datenextraktion mit einer Liste vom Text
- · Scrapen aus vielfachen Websites
5. Fehlerbehebung bei „Loop Item“
Sie können viele Fragen über das „Loop Item“ haben, wie fehlende Elemente, Überspringen von Seiten und so weiter. Die am häufigsten gestellten Fragen zu „Loop Item“ sind unten aufgelistet:
Paginierung:
- · Warum überspringt Octoparse Seiten während des Scrapens?
- · Warum scrapt Octoparse immer wieder die letzte Seite und hört nicht auf?
Fehlende Elemente:
- · Unendliches Scrollen werden eingerichtet, aber keine neuen Elemente zur Liste hinzugefügt?(Englisch)
- · Warum gibt es Datenfehlen bei der Cloud-Daten-Extraktion?
Anders:
Autor*in: Das Octoparse Team