Scrapen Produktdaten von Canadian Tire
Wednesday, June 09, 2021 11:23 AMSie folgen jetzt einem Tutorial für die neueste Version von Octoparse. Wenn Sie zur Zeit eine ältere Version verwenden, empfehlen wir Ihnen kräftig es, ein Upgrade zu machen, weil sie schneller, leichter und stärker ist! Herunterladen und Installierung eines Upgrades hier, wenn Sie nicht so bereits machen!
Canadian Tire ist ein kanadischer Einzelhandelsunternehmen, der in den Bereichen Automobil, Eisenwaren, Sport, Freizeit und Haushaltswaren tätig ist.
In diesem Tutorial zeigen wir Ihnen, wie Sie Produktdaten von canadiantire.com mit Octoparse sammeln können.
Zum Üben verwenden wir diese URL als Beispiel:
Hier sind die wichtigsten Schritte in diesem Tutorial: [Aufgabendatei hier herunterladen]
Schritt 1: „Go To Web Page“ - um die Ziel-Webseite zu öffnen
-
Geben Sie die Beispiel-URL ein und klicken Sie auf „Start“.
Tipps: Wenn Sie bebielige Pop-Ups auf der Webseite ansehen, wechseln Sie bitte in „Browse Mode“, um sie manuell zu schließen. Vergessen Sie nicht, dass Sie nach oben genanntem Schritt diesen Modus schließen sollten.
Schritt 2: Detektieren automatisch die Daten von der Webseite - um einen Workflow zu erstellen
-
Klicken Sie auf „Auto-detect web page data“ und warten Sie, bis die Detektion abgeschlossen ist.
-
Löschen Sie unerwartete Datenfelder in der Datenvorschau.
-
Kreuzen Sie nicht „Add a page scroll“ an und klicken Sie auf „Create workflow“.
Der entgültige Workflow sollte wie folgend angesehen werden:
Schritt 3:Modifizieren der Datenfelder - um die kundenspezifische Datenfelder hinzuzufügen und Elemente genauer zu lokalisieren
In diesem Fall konnte der Preis pro Reifen nicht erkannt werden. Wir müssen manuell ein benutzerdefiniertes Feld für den Preis hinzufügen.
-
Klicken Sie auf den Preis jedes Reifen.
-
Klicken Sie afu „Extract text of the selected element“ in den Tipps-Kasten, nachdem es Grün wird.
-
Klicken Sie doppelt auf das Datenfeld, um es umzubenennen.
Modifizieren Sie den XPath für Preis pro Reifen und stellen Sie ihn als 4 wie folgend ein:
-
Wechseln Sie die Datenvorschau in eine vertikale Ansicht.
-
Geben Sie den XPath ein:
-
//div[@class="nl-price--charge"]//span[contains(text(),'Each')]/.. für per_tire Feld
-
//div[@class="nl-product-card-vehicle--set-of-four__product-information"]//span[@data-testid="priceTotal"] für set_of_4 Feld
-
Schritt 4: Hinzufügen der Paginierung - um weitere Seiten zu scrapen
-
Klicken Sie auf „next page button“.
-
Klicken Sie auf „Loop click single button“ in den Tipps-Kasten, nachdem der Button Grün wird.
Schritt 5: Erstellen der Seite-Scrollen - um alle Bilder zu laden
-
Klicken Sie auf „Go to Web Page“.
-
Klicken Sie auf „Options“.
-
Klicken Sie auf „Scroll down the page after it is loaded“.
-
Wählen Sie „Scroll for one screen“.
-
Warten Sie 2s.
-
Scrollen 50 Mal.
-
Klicken Sie auf „Apply“.
-
Klicken Sie auf „Click to paginate“ im Workflow.
-
Klicken Sie auf „Options“.
-
Klicken Sie auf „Scroll down the page after it is loaded“.
-
Selektieren Sie „Scroll for noe screen“.
-
Warten Sie 2s.
-
Scrollen 50 Mal.
-
Klicken Sie auf „Apply“.
Der endgültige Workflow sollten wie folgend angesehen werden:
Schritt 6: Ausführung der Aufgabe - um Ihre Zieldaten zu erhalten
-
Klicken Sie zuerst auf „Save“ Button, um alle Einstellungen zu speichern, die Sie gemacht haben.
-
Dann klicken Sie auf „Run“, um Ihre Aufgabe auf Ihrem Gerät oder in der Cloud auszuführen.
-
Selektieren Sie „Run on your device“ und klicken Sie dann auf „Run Now“, um die Aufgabe in Ihrem eigenen Gerät auszuführen.
-
Warten Sie auf die Aufgabe zum Abschließen.
Folgend ist ein Beispiel, das in der Lokale ausgeführt wird. Diese Arten sind geeignet für Export: Excel, CSV, HTML und JSON-Format.