undefined

Extraktion von Detailseite

Thursday, June 23, 2022 3:04 PM
Manchmal möchten wir nicht nur die Daten der Listeseite, sondern auch sie auf der Detailseiten scrapen. Für einige Websites, z.B. E-commerce, ist es in Web Scraping ganz normal, auf jeden Link in der Liste zu klicken und die Daten aus einer neuen Seite zu scrapen. Dieses Tutorial wird Ihnen anzeigen, wie man zur Detailseite auf jeden Link klickt, um die detaillierten Daten zu scrapen, und sowohl Daten der Liste als auch detaillierte Daten scrapen können.

 

 

 

 

Teil 1 Datenextraktion aus neuen Seiten nach Klick auf Links

 

Es ist eine häufige Szene in Web Scraping. Wenn Sie aus Websites des E-Commerce (z.B. Amazon, eBay usw.) oder Unternehmensverzeichnises (z.B. Yelp, Gelbeseite usw.) die Daten scrapen möchten, würde dieses Tutorial besonders hilfreich.

 

Beispiel Webseite

 

Sie brauchen vielleicht diesen Link zu probieren:
Methode 1 Erstellung des Workflows bei der Verwendung von Auto-Detect
Methode 2 Erstellung des Workflows manuell

 

Methode 1 Erstellung des Workflows bei der Verwendung von Auto-Detect

 

Schritt 1: Sobald Sie bei der Verwendung vom Beispiel-URL eine neue Aufgabe erstellt haben, wählen Sie „Auto-detect web page data“. Octoparse würde nun beliebige Daten auf der Seite erkennen. Dann können Sie auf „Create workflow“ klicken, um ihn zu generieren.

 

Auto-detect web page data

 

Schritt 2: Wählen Sie „Click on link(s) to scrape the linked page(s)“ in der Tipps-Platte. Danach selektieren Sie eine Option aus dem Dropdown Menü. Hier können Sie „Title_URL“ wählen.

 

Octoparse würde jetzt Sie zur Detailseite des ersten Produktes führen.

 

Schritt 3: Verwenden Sie die Funktion „Auto-detect“ wieder, um die Daten der Seite zu scrapen. Oder können Sie auf Zieldatenfelder klicken, z.B. Titel, Bedingung, Preis usw., um diese Daten zu extrahieren.

 

extract the text of the selected element

 

Methode 2 Erstellung des Workflows manuell

 

Schritt 1: Klicken Sie auf den Titel des ersten Produktes, der die Seite-URL des Produktes enthält.
Der selektierte Titel ist grün hervorgehoben, während alle anderen gleichen Titel des Produktes rot hervorgehoben sind.

 

klicke auf Titel

 

Schritt 2: Klicken Sie auf „Select all“ in der Tipps-Platte.

 

select all

 

Tipps!
Wenn es keine Option „Select all“ in der Tipps-Platte gibt, nachdem Sie die erste URL wählen, gehen Sie bitte weiter, um die zweite URL zu selektieren.

 

Schritt 3: Wählen Sie „Loop click each element“ oder „Loop click each URL“ aus der Tipps-Panel. Notieren eines Schrittes von Loop-Klick wird automatisch generiert und dem Workflow hinzugefügt.

 

Loop click each element

 

Tipps!
Um alle Links in der Liste durchzuklicken, ist es wichtig, dass Sie das Ankerelement richtig auswählen. Octoparse identifiziert automatisch die Tags der ausgewählten Elemente. Wenn Sie also ein Element mit URL auswählen, wäre das ausgewählte Tag „A“, das für einen Anker steht, der normalerweise eine Seite mit einer anderen verbindet.
Wenn Sie feststellen, dass Octoparse das A-Tag nicht findet, können Sie auf das „A“ in der Tipps-Platte klicken.

 

klicke auf A

 

Schritt 4: Klicken Sie auf die Ziel-Datenfelder, um die Information wie Titel, Bewertung, Preis usw. zu scrapen.

 

extract the text of the selected element

 

Tipps!
Die Einstellung der Wartezeit in „Options“ für Schritte wie „Click Item“ oder „Extract Data“ kann das Überspringen von Daten effektiv vermeiden und den Crawling-Prozess wie menschlisches Verhalten aussehen lassen. (Normalerweise würde 2-5 Sekunde viel besser.) Dann klicken Sie auf „Apply“ zu bestätigen.

 

Wartezeit Einstellen

 

 

Teil 2 Datenextraktion aus Liste und Detailseiten

 

Wenn wir Information der Produkte aus den Websites des E-Commerce scrapen möchten, wollen wir meistens die Daten nicht nur aus der Liste von Suchergebnissen, sondern auch aus jeder Detailseite des Produktes extrahieren. Hier können Sie finden, wie man einen kundenspezifischen Crawler einstellen soll.
Stellen Sie es vor, dass Sie in eBay „Kameralinse“ suchen möchten. Schauen Sie die folgende URL als Beispiel an:

 

eBay als Beispiel

 

In diesem Fall möchten wir zuerst aus der Listeseite den Titel der Kameralinse scrapen, und dann zu ihrer Detailseite gehen, um die Besonderheiten zu erhalten. Gemeinsam gibt es zwei Methoden zu verwirklichen.
Methode 1 Erstellung des Workflows beim Auto-Detect
Methode 2 Erstellung des Workflows manuell

 

Methode 1 Erstellung des Workflows beim Auto-Detect

 

Diese intelligente Erkennungseigenschaft in Octoparse 8.X ist mächtiger als die frühere Versionen. Wir können es verwenden, um die Websites zu generieren und Zeit zu sparen.
Schritt 1: Klicken Sie auf „Auto-detect web page data“ im Tipps-Kasten und warten Sie darauf, bis es abgeschlossen ist.
Schritt 2: Wechseln Sie die Optionen zwischen unterschiedlichen Ergebnisse, um Ihre gewünschten Datenfelder zu finden (Ergebnis 1 in diesem Fall).

 

Auto-detect web page data

 

Schritt 3: Modifizieren Sie die Einstellungen der Datenfelder, indem Sie sie umbenennen und eines löschen, den Sie in der Datenvorschau nicht bekommen möchten.

 

Datenfelder einstellen

 

Wenn wir beliebte Produktslinien wie die oben erwähnte Website suchen, brauchen wir möglicherweise verschiedene Suchergebnisseiten zu navigieren und dann die Daten daraus zu scrapen.

 

Schritt 4: Klicken Sie auf den Button „Check“, um zu sehen, ob Octoparse erfolgreich den Button der nächsten Seite lokalisiert.
Schritt 5: Deselektieren Sie „Add a page scroll“ und dann klicken Sie auf „Create workflow“.

 

Create workflow

 

Octoparse hat nun ein Loop-Item im Workflow erstellt, mit dem man aus der Suchergebnisseite Daten scrapen kann. Wir würden weiter die Schritte aufbauen, um zur Detailseite zu gehen.
Schritt 6: Wählen Sie „Click on link(s) to scrape the linked page(s)“.
Schritt 7: Selektieren Sie ein Feld mit den URLs, auf die Sie klicken möchten.

 

Click on link(s) to scrape the linked page(s)

 

Jetzt hat uns Octoparse zur Detailseite für weitere Datenextraktion gebracht. Wir können die Information scrapen, die wir aus der Seite bekommen möchten.
Schritt 8: Klicken Sie auf jedes Webelement, das Sie scrapen möchten.
Schritt 9: Klicken Sie auf „Extract the text of the element“ aus der Tipps-Platte.
Schritt 10: Modifizieren Sie die Datenfeldernamen in der Datenvorschau.

 

Extract the text of the element

 

Methode 2 Erstellung des Workflows manuell

 

Wenn die automatische Detektion für einige Websites fehlschlägt, können wir auch den Workflow manuell einrichten. Hier sind die Schritte:
Schritt 1: Wählen Sie das erste Item auf der Listeseite.
Schritt 2: Klicken Sie auf „Select all“ in der Tipps-Platte.
Schritt 3: Klicken Sie auf „Extract text of the selected elements“.

 

Ein Loop-Item wurde jetzt bereits dem Workflow hinzugefügt, aber nur der Titel des Produktes wird gescrapt. Wir können andere Felder hinzufügen.
Schritt 4: Wählen Sie beliebige gewünschte Information, um die Daten aus den Ergebnisseiten zu scrapen.
Schritt 5: Wählen Sie „Extract text of the element“.

 

Erstellung des Workflows manuell

 

Dann brauchen wir eine Aktion errichten, um auf die Titel-URL des Productes zu klicken.
Schritt 6: Wählen Sie den ersten Titel auf der Listeseite.
Schritt 7: Klicken Sie auf „Click element“.

 

Click element

 

Sobald wir zur Detailseite gebracht werden, können wir die Information aus den Besonderheiten des Items extrahieren.
Schritt 8: Klicken Sie auf beliebiges gewünschtes Webelement auf, um es zu scrapen.
Schritt 9: Klicken Sie auf „Extract the text of the element“ aus der Tipps-Platte.
Schritt 10: Modifizieren Sie die Datenfeldernamen in der Datenvorschau.

 

Wenn Sie Probleme bei der Datenextraktion haben, oder uns etwas Vorschlägen geben möchten, reichen Sie bitte uns eine Anfrage ein. Erfüllen Sie eine Anfrage hier. Oder Sie können durch E-Mail (support@octoparse.com) uns kontaktieren.

 

 

Autor*in: Das Octoparse Team
Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen