Sie folgen jetzt einem Tutorial für die neueste Version von Octoparse. Wenn Sie zur Zeit eine ältere Version verwenden, empfehlen wir Ihnen kräftig es, ein Upgrade zu machen, weil sie schneller, leichter und stärker ist! Herunterladen und Installierung eines Upgrades hier, wenn Sie nicht so bereits machen!

Walmart ist ein großes Einzelhandelsunternehmen in den Vereinigten Staaten. In diesem Tutorial zeigen wir Ihnen, wie Sie Produktdaten von Walmart.com scrapen können.

Sie können einfach unsere "Aufgabenvorlage" für Walmart verwenden. Mit der Vorlage brauchen Sie keine Aufgabe selbst zu konfigurieren, sondern nur einige Parameter einzugeben. Für weitere Details können Sie hier finden: Aufgabenvorlagen

Wenn Sie wissen möchten, wie Sie die Aufgabe von Grund auf selbst erstellen, können Sie das folgende Tutorial weiter lesen.

Nehmen wir an, dass wir spezifische Informationen über Kopfhörer scrapen möchten, und wir beginnen mit der Suchergebnisseite (https://www.walmart.com/search/?query=headphones). Wir werden Daten wie den Produkttitel, den Preis, die Produkt-ID und Bewertungen von der Produktdetailseite mit Octoparse scrapen.

Hier sind die wichtigsten Schritte in diesem Tutorial. [Aufgabendatei hier herunterladen]

Schritt 1: „Go To Web Page“ - Öffnen die Ziel-Webseite

Geben Sie die Beispiel-URL ein und klicken Sie auf "Start".

Klicken Sie auf den Suchkasten und dann klicken Sie auf „Enter Text“ auf die Tipps-Platte.

Geben Sie „Headphone“ ein und dann klicken Sie auf „Confirm“

Klicken Sie auf „Enter Text“ und stellen Sie ein, dass Sie die Enter/Return-Taste drücken, dann klicken Sie zur Bestätigung auf „Apply“.

Schritt 2: Erstellen einer Pagination - um die Daten aus mehreren Seiten zu scrapen

Klicken Sie auf den Nächste Seite Button und selektieren Sie dann „Loop click single element“, danach erstellen Sie „AJAX Timeout“ als 10s.

Der automatisch generierte XPath für die Paginierung funktioniert in diesem Fall nicht immer, so dass wir den XPath ändern müssen, um alle Seiten zu scrapen.

Klicken Sie auf „Pagination“
Geben Sie den XPath //a[@aria-label="Next Page"] in den Matching-XPath Kasten
Klicken Sie auf „Apply“ zur Bestätigung

Schritt 3: Daten Scraping aus der Produkteliste

Wählen Sie das erste Produkt (beachten, dass der ganze Produkteabschnitt´aufgenommen werden sollte)
Selektieren Sie alle Sub-elements

Wählen Sie „Select All“

Wählen Sie „Extact data“ aus.

Jetzt wird ein Loop-Item mit „Extract Data“ im Workflow erstellt.

Klicken Sie doppelt auf den Feldname, um ihn umzubennen, oder klicken Sie einfach ... zum Löschen unerwarteter Datenfelder.

Wenn alle gewünschten Daten aus der Listeseite gescrapt werden, können Sie direkt zum 6. Schritt gehen.

Schritt 4: Klicken in jeden Produkt-Link, um weitere Informationen zu scrapen

Einige Informationen wie Produktevorstellung können nur auf der Detailseite gescrapt werden. Wir sollten auf jeden Produkt-Link klicken, um die Daten zu erhalten.

Klicken Sie auf den ersten Produkt-Link.
Wählen Sie „Click URL“.

Ein Klick-Item würde in den Workflow erstellt.

Schritt 5: Extrahieren Daten von der Detailseite

Selektieren Sie Ihre gewünschten Daten.
Klicken Sie auf „Extract the text of the element“ oder „Extract the URL of the select image“.

Klicken Sie doppelt auf den Feldname, um ihn umzubennen. Oder können Sie auf ... klicken zum Löschen des Feldes.

Erstellen Sie die Wartezeit für „Extract Data“.

Der automatisch generiert XPath der Datenfelder könnten nicht funktionieren, nachdem die Webseite aktualisiert hat. Wir sollten deshalb die XPaths der Felder modifizieren. In diesem Fall haben wir schon einige nützliche XPath für solche Webseiten vorbereitet.

Schalten Sie Ihre Datenvorschau zur „Vertical View“ um.
Klicken Sie doppelt auf den XPath zur Modifizierung.
Ersetzen Sie ihn mit einem der folgenden XPath

Product name: //h1

Price: //span[@itemprop="price"]

Product details: //h2[text()='Product details']/../following-sibling::div[1]

Specifications: //h2[text()='Specifications']/../following-sibling::div[1]

Schritt 6: Speichern und starten, um die Aufgabe auszuführen und Daten zu erhalten

Klicken auf „Save“
Klicken auf „Run“ rechts oben
Wählen „Run on your device“, um die Aufgabe mit Ihrem lokalen Gerät auszuführen.

Notiz: Walmart-Aufgaben können wegen der CAPTCHA-Probleme nicht in der Cloud ausgeführt werden. Sie können nun nur sie auf Ihrem Gerät ausführen.

Hier sind die Beispieldaten.

Verwandte Artikel

Scraping der Produkt-Infos von eBay

Scraping der Unternehmensinformationen von Crunchbase

Scraping der Geschäftsdetails von Yell (V8.4)

Scraping der Immobiliendaten von Realtor.com (V8.4)

Scraping der Jobinfo von Indeed (V8.4)