Alle Seiten haben ihre eigenen Eigenschaften. Das bedeutet, dass alle Websites unterschiedliche Strukturen haben. Deshalb sollten wir zum zustandsorientierten Scraping „Branch Conditions“ verwenden, wenn Ihre Zielseiten Variationen zeigen. Hier können Sie seine Arbeitsgänge bekommen:

Aber wenn sollte „Branch Conditions“ verwendet werden?

Es gibt hier zwei hauptsächliche Szenarien, in die „Branch Conditions“ verwendet werden können.

Szenarium 1: Wenn Sie sich nur dafür interessieren, Daten von bestimmten Seiten mit einem bestimmten Tag zu erhalten, z.B. „Neu“, „Populär“, „Im Angebot“ usw.
Szenarium 2: Wenn die Daten auf der Seite in verschiedenen Formen angezeigt werden, d. h. manchmal als Text, manchmal als Bild.

In dem Beispiel unten möchten wir Informationen über Laptops extrahieren, die im Angebot sind. Schauen Sie detailliert diese Website an, können wir wahrscheinlich durch Klick auf das Symbol die Daten erhalten. Als eine Testbedingung könnte es überprüfen: Wenn das Element auf der Artikelseite gefunden wird, erfassen wir die Produktinformationen; andernfalls überspringen wir die Seite/das Produkt.

Schauen wir uns jetzt an, wie das geht! Zum Üben können Sie diese URL im Beispiel verwenden:

https://www.bestbuy.com/site/all-laptops/pc-laptops/pcmcat247400050000.c?id=pcmcat247400050000

Wie könnte man „Branch Conditions“ erstellen?

Schritt 1: Erstellen Sie ein „Loop item“, um jeden Link in der Liste anzuklicken (sehen Tutorial)

Schritt 2: Verwenden Sie „Branch Conditions“, um die Bedingung zu überprüfen, ob der Schritt auf der Artikelseite vorhanden ist.

Prozess 1: Bewegen Sie die Maus über den Schritt, wo Sie „Branch conditions“ hinzufügen möchten.
Prozess 2: Klicken Sie auf das + Zeichen,um eine Aktion „Branch Conditions“ in „Loop item“ hinzuzufügen.

Prozess 3: Klicken Sie auf „Branch Conditions_Branch2“ auf der linken Seite und wählen Sie „Execute if the current page contains specific element“.
Prozess 4: Geben Sie den XPath für das Element in den folgenden Textkasten ein: „//div[@class='pricing-price__savings']“.
Prozess 5: Klicken Sie auf „Apply“.

Tipps!

Wenn Sie über XPath noch Schwierigkeiten oder Probleme haben, können Sie dieses englisches Tutorial ansehen: Was ist XPath?
Wenn Sie keine Ahnung haben, wie ein XPath geschrieben wird, können Sie auf den Matching-XPath entsprechenden Button klicken und wählen Sie dann das Element auf der Website aus. Octoparse würde automatisch einen XPath generieren.

Prozess 6: Klicken Sie auf „Branch Conditions“ auf der rechten Seite und wählen Sie „Always execute the branch“.

Tipps!

In Octoparse können Sie unterschiedliche Bedingungen auf eine der folgenden Möglichkeiten einstellen:

Always execute the branch

Wenn diese Option ausgewählt ist, würde Octoparse die Verzweigung überhaupt nicht bewerten und die Aktionen innerhalb der Verzweigung sofort ausführen. Sie können diese Option nur für die Verzweigung auf der rechten Seite wählen.

Execute if the page contains specific text

Wenn diese Option ausgewählt ist, würde Octoparse auf der aktuellen Seite nach der angegebenen Textzeichenfolge suchen.

Execute if the current page contains a specific element

Wenn diese Option ausgewählt ist, würde Octoparse nach dem angegebenen Element (entsprechend dem eingegebenen XPath) auf der aktuellen Seite suchen.

Execute if the current loop contains specific text

Wenn diese Option ausgewählt ist, würde Octoparse in der aktuellen Schleife nach der angegebenen Textzeichenfolge suchen.

Execute if the current loop contains a specific element

Wenn diese Option ausgewählt ist, würde Octoparse innerhalb der aktuellen Schleife nach dem angegebenen Element (gemäß dem eingegebenen relativen XPath) suchen. Verwenden Sie diese Option nur, wenn Sie zwischen den Elementen in einer Schleife eine Entscheidung treffen müssen.

Schritt 3: Klicken Sie auf die gewünschten Datenfelder von der Produktseite (wählen Sie ein Element aus der Schleife aus, das das folgende Element enthält), um sie zu erhalten (Wie?). Benennen Sie die Felder bei Bedarf um.

Schritt 4: Ziehen Sie die Aktion „Extract Data“ in „Branch conditions“ auf der linken Seite.

Jetzt haben wir Octoparse so konfiguriert, dass es auf der Seite nach dem Element sucht. Wenn das Element gefunden wird, werden die gewünschten Daten erfasst, andernfalls wird das Produkt übersprungen.

Tipps!

1. Wenn Sie mehre Bedingungen hinzufügen möchten, um mehre Variationen zu klassifizieren, können Sie auf das + Zeichen klicken.

2. Wenn eine Bedingung als „whether an element is found“ festgelegt ist, muss das bezeichnete Element einzig auf der Seite gefunden werden, sonst kann die Beurteilung nicht funktionieren.

3. Octoparse führt die Verzweigungen standardmäßig von links nach rechts. Es ist besonders wichtig, dass Ihre gewünschte Bedingung innerhalb der linken Branche überprüft wird; Wenn die Bedingung für die linke Verzweigung „Always execute the branch“ lautet, wird Octoparse nicht mit der rechten Verzweigung fortfahren, weil „Always execute the branch“ immer „True“ getestet wird.

4. Sie können die Branche leer lassen, wenn keine Datenextraktionsaktion erforderlich ist, wenn die Bedingung nicht erfüllt ist.

5. Wenn eine Datenextraktionsaktion zu beiden Zweigen hinzugefügt wird, müssen sowohl die Anzahl der Datenfelder als auch der Name der Datenfelder gleich bleiben.

6. Sie können verschachtelte Zweigbeurteilungen verwenden, um die Aufgabe weiter zu verfeinern.

Verwandte Artikel

Funktionvorstellung von „Exit loop“

Funktionvorstellung von „Click Item“

Funktionvorstellung von „Schleife“-Aktion

Warum so viele Duplikate und wie sie zu löschen?

Funktionvorstellung von „Extract data“ und Elemente