Alle Kollektionen
Octoparse Performance
Datenextraktion aus Liste und Detailseiten
Datenextraktion aus Liste und Detailseiten
Vor über einer Woche aktualisiert

Wenn wir Information der Produkte aus den Websites des E-Commerce scrapen möchten, wollen wir meistens die Daten nicht nur aus der Liste von Suchergebnissen, sondern auch aus jeder Detailseite des Produktes extrahieren. Hier können Sie finden, wie man einen kundenspezifischen Crawler einstellen soll.

Stellen Sie es vor, dass Sie in eBay „Kameralinse“ suchen möchten. Schauen Sie die folgende URL als Beispiel an:

eBay als Beispiel

In diesem Fall möchten wir zuerst aus der Listeseite den Titel der Kameralinse scrapen, und dann zu ihrer Detailseite gehen, um die Besonderheiten zu erhalten. Gemeinsam gibt es zwei Methoden zu verwirklichen.


Methode 1 Erstellung des Workflows beim Auto-Detect

Diese intelligente Erkennungseigenschaft in Octoparse 8.X ist mächtiger als die frühere Versionen. Wir können es verwenden, um die Websites zu generieren und Zeit zu sparen.

  • Schritt 1: Klicken Sie auf „Auto-detect web page data“ im Tipps-Kasten und warten Sie darauf, bis es abgeschlossen ist.

  • Schritt 2: Wechseln Sie die Optionen zwischen unterschiedlichen Ergebnisse, um Ihre gewünschten Datenfelder zu finden (Ergebnis 1 in diesem Fall).

Auto-detect web page data

  • Schritt 3: Modifizieren Sie die Einstellungen der Datenfelder, indem Sie sie umbenennen und eines löschen, den Sie in der Datenvorschau nicht bekommen möchten.

Datenfelder einstellen

Wenn wir beliebte Produktslinien wie die oben erwähnte Website suchen, brauchen wir möglicherweise verschiedene Suchergebnisseiten zu navigieren und dann die Daten daraus zu scrapen.

  • Schritt 4: Klicken Sie auf den Button „Check“, um zu sehen, ob Octoparse erfolgreich den Button der nächsten Seite lokalisiert.

  • Schritt 5: Deselektieren Sie „Add a page scroll“ und dann klicken Sie auf „Create workflow“.

Create workflow

Octoparse hat nun ein Loop-Item im Workflow erstellt, mit dem man aus der Suchergebnisseite Daten scrapen kann. Wir würden weiter die Schritte aufbauen, um zur Detailseite zu gehen.

  • Schritt 6: Wählen Sie „Click on link(s) to scrape the linked page(s)“.

  • Schritt 7: Selektieren Sie ein Feld mit den URLs, auf die Sie klicken möchten.

Click on link(s) to scrape the linked page(s)

Jetzt hat uns Octoparse zur Detailseite für weitere Datenextraktion gebracht. Wir können die Information scrapen, die wir aus der Seite bekommen möchten.

  • Schritt 8: Klicken Sie auf jedes Webelement, das Sie scrapen möchten.

  • Schritt 9: Klicken Sie auf „Extract the text of the element“ aus der Tipps-Platte.

  • Schritt 10: Modifizieren Sie die Datenfeldernamen in der Datenvorschau.

Extract the text of the element


Methode 2 Erstellung des Workflows manuell

Wenn die automatische Detektion für einige Websites fehlschlägt, können wir auch den Workflow manuell einrichten. Hier sind die Schritte:

  • Schritt 1: Wählen Sie das erste Item auf der Listeseite.

  • Schritt 2: Klicken Sie auf „Select all“ in der Tipps-Platte.

  • Schritt 3: Klicken Sie auf „Extract text of the selected elements“.

Ein Loop-Item wurde jetzt bereits dem Workflow hinzugefügt, aber nur der Titel des Produktes wird gescrapt. Wir können andere Felder hinzufügen.

  • Schritt 4: Wählen Sie beliebige gewünschte Information, um die Daten aus den Ergebnisseiten zu scrapen.

  • Schritt 5: Wählen Sie „Extract text of the element“.

Erstellung des Workflows manuell

Dann brauchen wir eine Aktion errichten, um auf die Titel-URL des Productes zu klicken.

  • Schritt 6: Wählen Sie den ersten Titel auf der Listeseite.

  • Schritt 7: Klicken Sie auf „Click element“.

Click element

Sobald wir zur Detailseite gebracht werden, können wir die Information aus den Besonderheiten des Items extrahieren.

  • Schritt 8: Klicken Sie auf beliebiges gewünschtes Webelement auf, um es zu scrapen.

  • Schritt 9: Klicken Sie auf „Extract the text of the element“ aus der Tipps-Platte.

  • Schritt 10: Modifizieren Sie die Datenfeldernamen in der Datenvorschau.

Hat dies Ihre Frage beantwortet?