undefined

Funktionvorstellung von „Loop Item“

Thursday, June 23, 2022 10:37 AM
Wenn Sie eine Scraping-Aufgabe in Octoparse erstellen, werden Sie irgendwann während des Prozesses ein „Loop Item“ brauchen. Die Aktion „Loop Item“ wird häufig für die Erfassung einer Liste von Elementen oder zum Paginieren durch die verschiedenen Seiten einer Website verwendet. In diesem Artikel werde ich genau erklären, wie „Loop Item“ in Octoparse funktioniert.

 

 

 

1. Was ist ein „Loop Item“?
Ein „Loop“ ist eine Programmierfunktion, die eine Anweisung kontinuierlich wiederholt, bis eine bestimmte Bedingung erreicht ist. Das „Loop Item“ in Octoparse ist wie ein Loop ähnlich. Ein „Loop Item“ wird normalerweise mit mehr als einer URL/einem Element erstellt, und dem Loop Item wird eine oder mehrere Aktion(en) hinzugefügt. Sobald ein „Loop Item“ erstellt wurde, wiederholt Octoparse die Aktionen für eine bestimmte Anzahl von Malen oder bis es keine Möglichkeit mehr gibt, die Aktionen zu wiederholen, z. B. wenn es keine nächste Seite mehr zum Umblättern gibt (wenn Sie die letzte Seite erreicht haben).

 

Lassen Sie uns ein Beispiel betrachten. Jetzt haben wir eine Liste von URLs zu erhalten.
Zuerst erstellen wir ein „Loop Item“ mit der Liste der URLs, dann fügen wir eine Aktion „Go to Web Page“ und eine Aktion „Extract Data“ innerhalb des Loop Items ein. Der Workflow würde wie folgt aussehen:

 

 Workflow sehen

 

Dieser Arbeitsablauf besteht aus einer Reihe von Anweisungen, die Octoparse anweisen, die erste URL der URL-Liste zu nehmen, die Seite mit der Aktion „Go to Web Page“ zu laden und dann die Daten mit der Aktion „Extract Data“ zu scrapen. Dieselbe Aktion wird für alle URLs in der Liste wiederholt, bis die letzte URL genommen wurde, dann stoppt das Loop.

 

 

2. Einstellungen von „Loop Item“
Wenn Sie auf Loop-Items klicken und „General“ auswählen, werden Sie in das Einstellungsfenster übergeleitet. Lassen wir die verfügbaren Optionen sehen.

 

 General Einstellung

 

    • · Action name: Hier können Sie den Namen des jeweiligen Loop-Elements ändern. Die Einstellung eines eindeutigen Namens für ein „Loop Item“ kann Ihnen bei der Sortierung helfen, wenn Sie mehr als ein „Loop Item“ in Ihrem Workflow haben.
    • · Loop mode: Sie müssen den geeigneten Loop-Modus wählen, damit ein „Loop Item“ richtig funktioniert. Es gibt zusammen 6 Loop-Modi, deren Funktionen im Folgenden ausführlich erklärt wird.
    • · Exit Loop: Neben dem automatischen Verlassen des Loops können Sie das Loop auch vorzeitig beenden, indem Sie die Anzahl der Wiederholungen festlegen.

 

 Exit Loop

 

  • · Wait before action: Mit dieser Funktion können Sie eine Wartezeit zwischen den einzelnen Wiederholungen einstellen.

 

 

3. 6 Loop-Modi und wie sie zu verwenden?
Es gibt zusammen 6 Loop-Modi: „Single Element“, „Variable List“, „Fixed List“, „List of URLs“, „Text List“ und „Scroll Page“.

 

 6 Loop-Modi

 

Modus 1: Single Element - um ein bestimmtes Element auf der Seite zu lokalisieren
Octoparse würde die Aktionen für dasselbe Element immer wieder ausführen, bis das Element nicht mehr auf der Seite gefunden wird. Eine häufige Verwendung für ein einzelnes Element ist, wenn Sie möchten, dass Octoparse die Schaltfläche „Next Page“ wiederholt anklickt, bis Sie die letzte Seite erreicht haben (keine „Next Page“ mehr).

 

 Single Element

 

Modus 2: Variable List - um eine mit einzelner XPath-Abfrage verbundene Liste der Items zu lokalisieren
Octoparse würde die Aktionen auf die übereinstimmenden Elemente nacheinander ausführen, bis das letzte Element erreicht ist. „Variable List“ sollte verwendet werden, wenn die Anzahl der Elemente, die in einem Loop durchlaufen werden sollen, in verschiedene Seiten ungleich ist.

 

 Variable List

 

Modus 3: Fixed List - um eine Reihe von Items zu lokalisieren
Es ist ähnlich wie „Variable List“, aber „Fixed List“ stellt eine Liste von XPath-Abfragen dar, in der jede XPath ein einziges Element auf der Website lokalisiert. Es ist zu verwenden, wenn die Anzahl von Elemente auf alle Websites gleich ist.

 

 Fixed List

 

Modus 4: List of URLs - um eine Liste von URLs durchzulaufen
Octoparse würde die URLs nacheinander öffnen. Es gibt insgesamt vier Methoden, um die URLs einzugeben. Schauen Sie hier an, um die unterschiedlichen Methoden zu wissen.

 

 List of URLs

 

Modus 5: Text List - eine Liste von Zeichenketten
Wenn eine Texteliste verwendet wird, würde Octoparse die Zeichenketten auf der Seite Stück für Stück eingeben.

 

 Text List

 

Modus 6: Scroll Page - eine neue Weise vom Scrollen
Dieser Modus wird für diese Websites verwendet, die unendlichen Scrollen brauchen sollten, um mehrere Information anzusehen. Diese Option kann es hilfen, während des Scrollen statt nach der Erledigung vom Scrollen die Daten zu scrapen.

 

 Scroll Page

 

 

Tipps!
  • · Die Aufgaben mit „Fixed List“, „List of URLs“ und „Text List“ könnten in der Cloud aufgeteilt werden, sodass sie effizienter die Daten scrapen können.
  • · „Variable List“ könnte in „Fixed List“ umgewandelt werden, um die Daten effizienter zu scrapen.

 

 

4. Erstellung von „Loop Item“
Es hängt von Ihren Scraping-Bedürfnissen und spezieller Struktur der Website ab, welche Art des Loop-Items Sie benötigen. In den folgenden Tutorials erfahren Sie, wie Sie ein „Loop Item“ für verschiedene Fällen erstellen können.

 

 

5. Fehlerbehebung bei „Loop Item“
Sie können viele Fragen über das „Loop Item“ haben, wie fehlende Elemente, Überspringen von Seiten und so weiter. Die am häufigsten gestellten Fragen zu „Loop Item“ sind unten aufgelistet:
Paginierung:
Fehlende Elemente:
Anders:

 

 

Autor*in: Das Octoparse Team
Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen