undefined

Scrapen Daten von Walmart  

Friday, June 11, 2021 9:51 AM

Sie folgen jetzt einem Tutorial für die neueste Version von Octoparse. Wenn Sie zur Zeit eine ältere Version verwenden, empfehlen wir Ihnen kräftig es, ein Upgrade zu machen, weil sie schneller, leichter und stärker ist! Herunterladen und Installierung eines Upgrades hier, wenn Sie nicht so bereits machen!

 

Walmart ist ein großes Einzelhandelsunternehmen in den Vereinigten Staaten. In diesem Tutorial zeigen wir Ihnen, wie Sie Produktdaten von Walmart.com scrapen können.

 

Sie können einfach unsere "Aufgabenvorlage" für Walmart verwenden. Mit der Vorlage brauchen Sie keine Aufgabe selbst zu konfigurieren, sondern nur einige Parameter einzugeben. Für weitere Details können Sie hier finden: Aufgabenvorlagen

 

 Aufgabenvorlagen

 

Wenn Sie wissen möchten, wie Sie die Aufgabe von Grund auf selbst erstellen, können Sie das folgende Tutorial weiter lesen.

Nehmen wir an, dass wir spezifische Informationen über Kopfhörer scrapen möchten, und wir beginnen mit der Suchergebnisseite (https://www.walmart.com/search/?query=headphones). Wir werden Daten wie den Produkttitel, den Preis, die Produkt-ID und Bewertungen von der Produktdetailseite mit Octoparse scrapen.

 

Hier sind die wichtigsten Schritte in diesem Tutorial: [Aufgabendatei hier herunterladen]

  1. „Go To Web Page“ - Öffnen die Ziel-Webseite

  2. Detektieren automatisch die Daten von der Webseite - Erstellen einen Workflow

  3. Daten Scraping aus der Produkteliste

  4. Klicken in jeden Produkt-Link, um weitere Informationen zu scrapen

  5. Extrahieren Daten von der Detailseite

  6. Speichern und starten, um die Aufgabe auszuführen und Daten zu erhalten

 


Schritt 1: „Go To Web Page“ - Öffnen die Ziel-Webseite

  • Geben Sie die Beispiel-URL ein und klicken Sie auf "Start".

 

 Start

 

  • Klicken Sie auf den Suchkasten und dann klicken Sie auf „Enter Text“ auf die Tipps-Platte.

 

 Enter Text

 

  • Geben Sie „Headphone“ ein und dann klicken Sie auf „Confirm“

 

 Confirm

 

  • Klicken Sie auf „Enter Text“ und stellen Sie ein, dass Sie die Enter/Return-Taste drücken, dann klicken Sie zur Bestätigung auf „Apply“.

 

 Einstellungen und Apply

 


Schritt 2: Erstellen einer Pagination - um die Daten aus mehreren Seiten zu scrapen

  • Klicken Sie auf den Nächste Seite Button und selektieren Sie dann „Loop click single element“, danach erstellen Sie „AJAX Timeout“ als 10s.

 

 Loop click single element

 

Der automatisch generierte XPath für die Paginierung funktioniert in diesem Fall nicht immer, so dass wir den XPath ändern müssen, um alle Seiten zu scrapen.

 

  • Klicken Sie auf „Pagination“

  • Geben Sie den XPath //a[@aria-label="Next Page"] in den Matching-XPath Kasten

  • Klicken Sie auf „Apply“ zur Bestätigung

 

 Pagination und Apply

 


Schritt 3: Daten Scraping aus der Produkteliste

  • Wählen Sie das erste Produkt (beachten, dass der ganze Produkteabschnitt´aufgenommen werden sollte)

  • Selektieren Sie alle Sub-elements

 

 Sub-elements

 

  • Wählen Sie „Select All“

 

 Select All

 

  • Wählen Sie „Extact data“ aus.

 

 Extact data

 

Jetzt wird ein Loop-Item mit „Extract Data“ im Workflow erstellt.

 

 mit „Extract Data“ im Workflow

 

  • Klicken Sie doppelt auf den Feldname, um ihn umzubennen, oder klicken Sie einfach ... zum Löschen unerwarteter Datenfelder.

 

 Felder verändern

 

Wenn alle gewünschten Daten aus der Listeseite gescrapt werden, können Sie direkt zum 6. Schritt gehen.

 


Schritt 4: Klicken in jeden Produkt-Link, um weitere Informationen zu scrapen

Einige Informationen wie Produktevorstellung können nur auf der Detailseite gescrapt werden. Wir sollten auf jeden Produkt-Link klicken, um die Daten zu erhalten.

  • Klicken Sie auf den ersten Produkt-Link.

  • Wählen Sie „Click URL“.

 

 Click URL

 

Ein Klick-Item würde in den Workflow erstellt.

 

 Workflow

 


Schritt 5: Extrahieren Daten von der Detailseite

  • Selektieren Sie Ihre gewünschten Daten.

  • Klicken Sie auf „Extract the text of the element“ oder „Extract the URL of the select image“.

 

 Extrahieren Daten von der Detailseite

 

Klicken Sie doppelt auf den Feldname, um ihn umzubennen. Oder können Sie auf ... klicken zum Löschen des Feldes.

 

 Klicken Sie doppelt auf den Feldname

 

  • Erstellen Sie die Wartezeit für „Extract Data“.

 

 Extract Data

 

Der automatisch generiert XPath der Datenfelder könnten nicht funktionieren, nachdem die Webseite aktualisiert hat. Wir sollten deshalb die XPaths der Felder modifizieren. In diesem Fall haben wir schon einige nützliche XPath für solche Webseiten vorbereitet.

  • Schalten Sie Ihre Datenvorschau zur „Vertical View“ um.

  • Klicken Sie doppelt auf den XPath zur Modifizierung.

  • Ersetzen Sie ihn mit einem der folgenden XPath

 

 Vertical view

 

Product name: //h1

Price: //span[@itemprop="price"]

Product details: //h2[text()='Product details']/../following-sibling::div[1]

Specifications: //h2[text()='Specifications']/../following-sibling::div[1]


Schritt 6: Speichern und starten, um die Aufgabe auszuführen und Daten zu erhalten

  • Klicken auf „Save“

  • Klicken auf „Run“ rechts oben

  • Wählen „Run on your device“, um die Aufgabe mit Ihrem lokalen Gerät auszuführen.

Notiz: Walmart-Aufgaben können wegen der CAPTCHA-Probleme nicht in der Cloud ausgeführt werden. Sie können nun nur sie auf Ihrem Gerät ausführen.

 

 Aufgabe ausführen

 


Hier sind die Beispieldaten.

Beispielaufgabe
Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen