Extraktion von Detailseite
Thursday, June 23, 2022 3:04 PMManchmal möchten wir nicht nur die Daten der Listeseite, sondern auch sie auf der Detailseiten scrapen. Für einige Websites, z.B. E-commerce, ist es in Web Scraping ganz normal, auf jeden Link in der Liste zu klicken und die Daten aus einer neuen Seite zu scrapen. Dieses Tutorial wird Ihnen anzeigen, wie man zur Detailseite auf jeden Link klickt, um die detaillierten Daten zu scrapen, und sowohl Daten der Liste als auch detaillierte Daten scrapen können.
Übersicht
Teil 1 Datenextraktion aus neuen Seiten nach Klick auf Links
Es ist eine häufige Szene in Web Scraping. Wenn Sie aus Websites des E-Commerce (z.B. Amazon, eBay usw.) oder Unternehmensverzeichnises (z.B. Yelp, Gelbeseite usw.) die Daten scrapen möchten, würde dieses Tutorial besonders hilfreich.

Sie brauchen vielleicht diesen Link zu probieren:
Methode 1 Erstellung des Workflows bei der Verwendung von Auto-Detect
Methode 2 Erstellung des Workflows manuell
Methode 1 Erstellung des Workflows bei der Verwendung von Auto-Detect
Schritt 1: Sobald Sie bei der Verwendung vom Beispiel-URL eine neue Aufgabe erstellt haben, wählen Sie „Auto-detect web page data“. Octoparse würde nun beliebige Daten auf der Seite erkennen. Dann können Sie auf „Create workflow“ klicken, um ihn zu generieren.

Schritt 2: Wählen Sie „Click on link(s) to scrape the linked page(s)“ in der Tipps-Platte. Danach selektieren Sie eine Option aus dem Dropdown Menü. Hier können Sie „Title_URL“ wählen.
Octoparse würde jetzt Sie zur Detailseite des ersten Produktes führen.
Schritt 3: Verwenden Sie die Funktion „Auto-detect“ wieder, um die Daten der Seite zu scrapen. Oder können Sie auf Zieldatenfelder klicken, z.B. Titel, Bedingung, Preis usw., um diese Daten zu extrahieren.

Methode 2 Erstellung des Workflows manuell
Schritt 1: Klicken Sie auf den Titel des ersten Produktes, der die Seite-URL des Produktes enthält.
Der selektierte Titel ist grün hervorgehoben, während alle anderen gleichen Titel des Produktes rot hervorgehoben sind.

Schritt 2: Klicken Sie auf „Select all“ in der Tipps-Platte.

Tipps!
Wenn es keine Option „Select all“ in der Tipps-Platte gibt, nachdem Sie die erste URL wählen, gehen Sie bitte weiter, um die zweite URL zu selektieren.
Schritt 3: Wählen Sie „Loop click each element“ oder „Loop click each URL“ aus der Tipps-Panel. Notieren eines Schrittes von Loop-Klick wird automatisch generiert und dem Workflow hinzugefügt.

Tipps!
Um alle Links in der Liste durchzuklicken, ist es wichtig, dass Sie das Ankerelement richtig auswählen. Octoparse identifiziert automatisch die Tags der ausgewählten Elemente. Wenn Sie also ein Element mit URL auswählen, wäre das ausgewählte Tag „A“, das für einen Anker steht, der normalerweise eine Seite mit einer anderen verbindet.
Wenn Sie feststellen, dass Octoparse das A-Tag nicht findet, können Sie auf das „A“ in der Tipps-Platte klicken.

Schritt 4: Klicken Sie auf die Ziel-Datenfelder, um die Information wie Titel, Bewertung, Preis usw. zu scrapen.

Tipps!
Die Einstellung der Wartezeit in „Options“ für Schritte wie „Click Item“ oder „Extract Data“ kann das Überspringen von Daten effektiv vermeiden und den Crawling-Prozess wie menschlisches Verhalten aussehen lassen. (Normalerweise würde 2-5 Sekunde viel besser.) Dann klicken Sie auf „Apply“ zu bestätigen.

Teil 2 Datenextraktion aus Liste und Detailseiten
Wenn wir Information der Produkte aus den Websites des E-Commerce scrapen möchten, wollen wir meistens die Daten nicht nur aus der Liste von Suchergebnissen, sondern auch aus jeder Detailseite des Produktes extrahieren. Hier können Sie finden, wie man einen kundenspezifischen Crawler einstellen soll.
Stellen Sie es vor, dass Sie in eBay „Kameralinse“ suchen möchten. Schauen Sie die folgende URL als Beispiel an:

In diesem Fall möchten wir zuerst aus der Listeseite den Titel der Kameralinse scrapen, und dann zu ihrer Detailseite gehen, um die Besonderheiten zu erhalten. Gemeinsam gibt es zwei Methoden zu verwirklichen.
Methode 1 Erstellung des Workflows beim Auto-Detect
Methode 2 Erstellung des Workflows manuell
Methode 1 Erstellung des Workflows beim Auto-Detect
Diese intelligente Erkennungseigenschaft in Octoparse 8.X ist mächtiger als die frühere Versionen. Wir können es verwenden, um die Websites zu generieren und Zeit zu sparen.
Schritt 1: Klicken Sie auf „Auto-detect web page data“ im Tipps-Kasten und warten Sie darauf, bis es abgeschlossen ist.
Schritt 2: Wechseln Sie die Optionen zwischen unterschiedlichen Ergebnisse, um Ihre gewünschten Datenfelder zu finden (Ergebnis 1 in diesem Fall).

Schritt 3: Modifizieren Sie die Einstellungen der Datenfelder, indem Sie sie umbenennen und eines löschen, den Sie in der Datenvorschau nicht bekommen möchten.

Wenn wir beliebte Produktslinien wie die oben erwähnte Website suchen, brauchen wir möglicherweise verschiedene Suchergebnisseiten zu navigieren und dann die Daten daraus zu scrapen.
Schritt 4: Klicken Sie auf den Button „Check“, um zu sehen, ob Octoparse erfolgreich den Button der nächsten Seite lokalisiert.
Schritt 5: Deselektieren Sie „Add a page scroll“ und dann klicken Sie auf „Create workflow“.

Octoparse hat nun ein Loop-Item im Workflow erstellt, mit dem man aus der Suchergebnisseite Daten scrapen kann. Wir würden weiter die Schritte aufbauen, um zur Detailseite zu gehen.
Schritt 6: Wählen Sie „Click on link(s) to scrape the linked page(s)“.
Schritt 7: Selektieren Sie ein Feld mit den URLs, auf die Sie klicken möchten.

Jetzt hat uns Octoparse zur Detailseite für weitere Datenextraktion gebracht. Wir können die Information scrapen, die wir aus der Seite bekommen möchten.
Schritt 8: Klicken Sie auf jedes Webelement, das Sie scrapen möchten.
Schritt 9: Klicken Sie auf „Extract the text of the element“ aus der Tipps-Platte.
Schritt 10: Modifizieren Sie die Datenfeldernamen in der Datenvorschau.

Methode 2 Erstellung des Workflows manuell
Wenn die automatische Detektion für einige Websites fehlschlägt, können wir auch den Workflow manuell einrichten. Hier sind die Schritte:
Schritt 1: Wählen Sie das erste Item auf der Listeseite.
Schritt 2: Klicken Sie auf „Select all“ in der Tipps-Platte.
Schritt 3: Klicken Sie auf „Extract text of the selected elements“.
Ein Loop-Item wurde jetzt bereits dem Workflow hinzugefügt, aber nur der Titel des Produktes wird gescrapt. Wir können andere Felder hinzufügen.
Schritt 4: Wählen Sie beliebige gewünschte Information, um die Daten aus den Ergebnisseiten zu scrapen.
Schritt 5: Wählen Sie „Extract text of the element“.

Dann brauchen wir eine Aktion errichten, um auf die Titel-URL des Productes zu klicken.
Schritt 6: Wählen Sie den ersten Titel auf der Listeseite.
Schritt 7: Klicken Sie auf „Click element“.

Sobald wir zur Detailseite gebracht werden, können wir die Information aus den Besonderheiten des Items extrahieren.
Schritt 8: Klicken Sie auf beliebiges gewünschtes Webelement auf, um es zu scrapen.
Schritt 9: Klicken Sie auf „Extract the text of the element“ aus der Tipps-Platte.
Schritt 10: Modifizieren Sie die Datenfeldernamen in der Datenvorschau.
Wenn Sie Probleme bei der Datenextraktion haben, oder uns etwas Vorschlägen geben möchten, reichen Sie bitte uns eine Anfrage ein. Erfüllen Sie eine Anfrage hier. Oder Sie können durch E-Mail (support@octoparse.com) uns kontaktieren.
Autor*in: Das Octoparse Team