undefined

Funktionvorstellung von „Branch Conditions“

Thursday, June 23, 2022 2:16 PM
Alle Seiten haben ihre eigenen Eigenschaften. Das bedeutet, dass alle Websites unterschiedliche Strukturen haben. Deshalb sollten wir zum zustandsorientierten Scraping „Branch Conditions“ verwenden, wenn Ihre Zielseiten Variationen zeigen. Hier können Sie seine Arbeitsgänge bekommen:

 

 Arbeitsgänge

 

 

lesen Aber wenn sollte „Branch Conditions“ verwendet werden?

Es gibt hier zwei hauptsächliche Szenarien, in die „Branch Conditions“ verwendet werden können.
Szenarium 1: Wenn Sie sich nur dafür interessieren, Daten von bestimmten Seiten mit einem bestimmten Tag zu erhalten, z.B. „Neu“, „Populär“, „Im Angebot“ usw.
Szenarium 2: Wenn die Daten auf der Seite in verschiedenen Formen angezeigt werden, d. h. manchmal als Text, manchmal als Bild.

 

In dem Beispiel unten möchten wir Informationen über Laptops extrahieren, die im Angebot sind. Schauen Sie detailliert diese Website an, können wir wahrscheinlich durch Klick auf das Symbol  die Daten erhalten. Als eine Testbedingung könnte es überprüfen: Wenn das Element  auf der Artikelseite gefunden wird, erfassen wir die Produktinformationen; andernfalls überspringen wir die Seite/das Produkt.

 

 Artikelseite

 

Schauen wir uns jetzt an, wie das geht! Zum Üben können Sie diese URL im Beispiel verwenden:

 

 

lesen Wie könnte man „Branch Conditions“ erstellen?

Schritt 1: Erstellen Sie ein „Loop item“, um jeden Link in der Liste anzuklicken (sehen Tutorial)

Schritt 2: Verwenden Sie „Branch Conditions“, um die Bedingung zu überprüfen, ob  auf der Artikelseite vorhanden ist.

  • · Prozess 1: Bewegen Sie die Maus über , wo Sie „Branch conditions“ hinzufügen möchten.
  • · Prozess 2: Klicken Sie auf , um eine Aktion „Branch Conditions“ in „Loop item“ hinzuzufügen.

 

 Branch Conditions

 

 

  • · Prozess 3: Klicken Sie auf „Branch Conditions_Branch2“ auf der linken Seite und wählen Sie „Execute if the current page contains specific element“.
  • · Prozess 4: Geben Sie den XPath für das Element in den folgenden Textkasten  ein: „//div[@class='pricing-price__savings']“.
  • · Prozess 5: Klicken Sie auf „Apply“.

 

 auf Apply klicken

 

 

Tipps!

1. Wenn Sie über XPath noch Schwierigkeiten oder Probleme haben, können Sie dieses englisches Tutorial ansehen: Was ist XPath?
2. Wenn Sie keine Ahnung haben, wie ein XPath geschrieben wird, können Sie auf  klicken und wählen Sie dann das Element auf der Website aus. Octoparse würde automatisch einen XPath generieren.

 

XPath generieren

 

  • · Prozess 6: Klicken Sie auf „Branch Conditions“ auf der rechten Seite und wählen Sie „Always execute the branch“.

 

 

Tipps!

In Octoparse können Sie unterschiedliche Bedingungen auf eine der folgenden Möglichkeiten einstellen:
1. Always execute the branch
Wenn diese Option ausgewählt ist, würde Octoparse die Verzweigung überhaupt nicht bewerten und die Aktionen innerhalb der Verzweigung sofort ausführen. Sie können diese Option nur für die Verzweigung auf der rechten Seite wählen.
2. Execute if the page contains specific text
Wenn diese Option ausgewählt ist, würde Octoparse auf der aktuellen Seite nach der angegebenen Textzeichenfolge suchen.
3. Execute if the current page contains a specific element
Wenn diese Option ausgewählt ist, würde Octoparse nach dem angegebenen Element (entsprechend dem eingegebenen XPath) auf der aktuellen Seite suchen.
4. Execute if the current loop contains specific text
Wenn diese Option ausgewählt ist, würde Octoparse in der aktuellen Schleife nach der angegebenen Textzeichenfolge suchen.
5. Execute if the current loop contains a specific element
Wenn diese Option ausgewählt ist, würde Octoparse innerhalb der aktuellen Schleife nach dem angegebenen Element (gemäß dem eingegebenen relativen XPath) suchen. Verwenden Sie diese Option nur, wenn Sie zwischen den Elementen in einer Schleife eine Entscheidung treffen müssen.

 

 

Schritt 3: Klicken Sie auf die gewünschten Datenfelder von der Produktseite (wählen Sie ein Element aus der Schleife aus, das das Element  enthält), um sie zu erhalten (Wie?). Benennen Sie die Felder bei Bedarf um.

 

 Felder benennen

 

Schritt 4: Ziehen Sie die Aktion „Extract Data“ in „Branch conditions“ auf der linken Seite.

 

 Extract data

 

Jetzt haben wir Octoparse so konfiguriert, dass es auf der Seite nach dem Element  sucht. Wenn das Element gefunden wird, werden die gewünschten Daten erfasst, andernfalls wird das Produkt übersprungen.

 

 Octoparse konfiguriert werden

 

 

Tipps!

1. Wenn Sie mehre Bedingungen hinzufügen möchten, um mehre Variationen zu klassifizieren, können Sie auf  klicken.

 

 auf + klicken

 

2. Wenn eine Bedingung als „whether an element is found“ festgelegt ist, muss das bezeichnete Element einzig auf der Seite gefunden werden, sonst kann die Beurteilung nicht funktionieren.
3. Octoparse führt die Verzweigungen standardmäßig von links nach rechts. Es ist besonders wichtig, dass Ihre gewünschte Bedingung innerhalb der linken Branche überprüft wird; Wenn die Bedingung für die linke Verzweigung „Always execute the branch“ lautet, wird Octoparse nicht mit der rechten Verzweigung fortfahren, weil „Always execute the branch“ immer „True“ getestet wird.
4. Sie können die Branche leer lassen, wenn keine Datenextraktionsaktion erforderlich ist, wenn die Bedingung nicht erfüllt ist.
5. Wenn eine Datenextraktionsaktion zu beiden Zweigen hinzugefügt wird, müssen sowohl die Anzahl der Datenfelder als auch der Name der Datenfelder gleich bleiben.
6. Sie können verschachtelte Zweigbeurteilungen verwenden, um die Aufgabe weiter zu verfeinern.

 

 

Autor*in: Das Octoparse Team
Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen