Wenn wir Information der Produkte aus den Websites des E-Commerce scrapen möchten, wollen wir meistens die Daten nicht nur aus der Liste von Suchergebnissen, sondern auch aus jeder Detailseite des Produktes extrahieren. Hier können Sie finden, wie man einen kundenspezifischen Crawler einstellen soll.
Stellen Sie es vor, dass Sie in eBay „Kameralinse“ suchen möchten. Schauen Sie die folgende URL als Beispiel an:
In diesem Fall möchten wir zuerst aus der Listeseite den Titel der Kameralinse scrapen, und dann zu ihrer Detailseite gehen, um die Besonderheiten zu erhalten. Gemeinsam gibt es zwei Methoden zu verwirklichen.
Methode 1 Erstellung des Workflows beim Auto-Detect
Diese intelligente Erkennungseigenschaft in Octoparse 8.X ist mächtiger als die frühere Versionen. Wir können es verwenden, um die Websites zu generieren und Zeit zu sparen.
Schritt 1: Klicken Sie auf „Auto-detect web page data“ im Tipps-Kasten und warten Sie darauf, bis es abgeschlossen ist.
Schritt 2: Wechseln Sie die Optionen zwischen unterschiedlichen Ergebnisse, um Ihre gewünschten Datenfelder zu finden (Ergebnis 1 in diesem Fall).
Schritt 3: Modifizieren Sie die Einstellungen der Datenfelder, indem Sie sie umbenennen und eines löschen, den Sie in der Datenvorschau nicht bekommen möchten.
Wenn wir beliebte Produktslinien wie die oben erwähnte Website suchen, brauchen wir möglicherweise verschiedene Suchergebnisseiten zu navigieren und dann die Daten daraus zu scrapen.
Schritt 4: Klicken Sie auf den Button „Check“, um zu sehen, ob Octoparse erfolgreich den Button der nächsten Seite lokalisiert.
Schritt 5: Deselektieren Sie „Add a page scroll“ und dann klicken Sie auf „Create workflow“.
Octoparse hat nun ein Loop-Item im Workflow erstellt, mit dem man aus der Suchergebnisseite Daten scrapen kann. Wir würden weiter die Schritte aufbauen, um zur Detailseite zu gehen.
Schritt 6: Wählen Sie „Click on link(s) to scrape the linked page(s)“.
Schritt 7: Selektieren Sie ein Feld mit den URLs, auf die Sie klicken möchten.
Jetzt hat uns Octoparse zur Detailseite für weitere Datenextraktion gebracht. Wir können die Information scrapen, die wir aus der Seite bekommen möchten.
Schritt 8: Klicken Sie auf jedes Webelement, das Sie scrapen möchten.
Schritt 9: Klicken Sie auf „Extract the text of the element“ aus der Tipps-Platte.
Schritt 10: Modifizieren Sie die Datenfeldernamen in der Datenvorschau.
Methode 2 Erstellung des Workflows manuell
Wenn die automatische Detektion für einige Websites fehlschlägt, können wir auch den Workflow manuell einrichten. Hier sind die Schritte:
Schritt 1: Wählen Sie das erste Item auf der Listeseite.
Schritt 2: Klicken Sie auf „Select all“ in der Tipps-Platte.
Schritt 3: Klicken Sie auf „Extract text of the selected elements“.
Ein Loop-Item wurde jetzt bereits dem Workflow hinzugefügt, aber nur der Titel des Produktes wird gescrapt. Wir können andere Felder hinzufügen.
Schritt 4: Wählen Sie beliebige gewünschte Information, um die Daten aus den Ergebnisseiten zu scrapen.
Schritt 5: Wählen Sie „Extract text of the element“.
Dann brauchen wir eine Aktion errichten, um auf die Titel-URL des Productes zu klicken.
Schritt 6: Wählen Sie den ersten Titel auf der Listeseite.
Schritt 7: Klicken Sie auf „Click element“.
Sobald wir zur Detailseite gebracht werden, können wir die Information aus den Besonderheiten des Items extrahieren.
Schritt 8: Klicken Sie auf beliebiges gewünschtes Webelement auf, um es zu scrapen.
Schritt 9: Klicken Sie auf „Extract the text of the element“ aus der Tipps-Platte.
Schritt 10: Modifizieren Sie die Datenfeldernamen in der Datenvorschau.