Scrapen von Produktinformationen aus Tokopedia (Version 8)
Friday, May 28, 2021 4:25 PMTokopedia ist eine indonesische Technologie-Firma, die sich auf die Branche von E-Commerce konzentriert. In diesem Tutorial zeigen wir Ihnen, wie Sie Produktinformationen, wie z.B. Produkttitel, Preis und Bewertung auf Tokopedia sammeln können.
Für Data Scraping von Tokopedia können Sie unsere vorgestellte Aufgabenvorlage verwenden, die auf der Startseite liegt. Oder können Sie einfach diesem Tutorial folgen, um Ihre eigene Aufgabe von Anfang an zu erstellen.
Wir verwenden die Suchergebnis-URL unten für das Beispiel.
https://www.tokopedia.com/search?st=product&q=usb
Hier sind die hauptsächlichen Schritte in diesem Tutorial: [Herunterladen Demo-Aufgabe hier: Aufgabe 1/Aufgabe 2]
Aufgabe 1 - Extrahieren URLs des Produktes
-
Öffnen Sie die Ziel-Webseite
-
Automatische Erkennung der Daten aus Webseiten
-
Erstellen Sie Pagination
-
Checken Sie den Workflow
-
Ausführung der Aufgabe und Exportieren der Daten
Aufgabe 2 - Extrahieren Daten aus Detailseiten
-
Erstellen einer neuen Aufgabe
-
Datenextraktion aus Produktsseite
-
Überprüfen Sie den Workflow
-
Ausführung der Aufgabe und Exportieren der Daten
Aufgabe 1 - Extrahieren URLs des Produktes
Schritt 1: Öffnen Sie die Ziel-Webseite
-
Geben Sie die URL und klicken Sie auf „Start“.
Schritt 2: Automatische Erkennung der Daten aus Webseiten
-
Wählen Sie „Auto-detect web page data“ auf der Tipps-Panel.
-
Nachdem die automatische Erkennung abgeschlossen ist, wählen Sie „Edit“ unter „Add a page scroll“ aus.
-
Stellen Sie die Anzahl von „Repeats“ als 3 ein und klicken Sie dann auf „Comfirm“. Danach selektieren Sie „Create workflow“.
-
Gehen Sie zur Datenvorschau - Löschen Sie alle Felder außer den Seite-URLs, indem Sie auf ... klicken, das sich neben der Felder-Kopfzeile befindet.
Schritt 3: Erstellen Sie Pagination
-
Klicken Sie auf den Nächsten Button auf der Webseite.
-
Klicken Sie auf „Button“ unten der Tipps
-
Wählen Sie „Loop click single button“ aus.
Schritt 4: Checken Sie den Workflow
Folgend liegt der entgültige Workflow. Wenn alles in Ordnung ist, können Sie weiter die Aufgabe ausführen.
Schritt 5: Ausführung der Aufgabe und Exportieren der Daten
-
Klicken Sie auf „Run“, was ganz oben rechtes liegt, um Ihre Aufgabe auszuführen: Wählen Sie „Run task on your device“ zur Ausführung auf Ihrem eigenen Gerät.
(Notiz: Wegen der komplizierten Anti-Scraping-Technik in dieser Webseite könnte Ihre Aufgabe nicht in der Cloud ausführen.)
Aufgabe 2 - Extrahieren Daten aus Detailseiten
Schritt 1: Erstellen einer neuen Aufgabe
-
Selektieren Sie „Advanced Mode“ oben links. Dann wählen Sie „Import from file“ und importieren Sie die Excel-Datei, die wir aus dem vorherigen Crawler exportiert haben. Schließlich lokalisieren Sie den richtigen „Sheet“ und „Column“ - Speichern und weiteres Gehen.
Schritt 2: Datenextraktion aus Produktsseite
-
Klicken Sie auf beliebigen Text aus der Seite und selektieren Sie „Extract the text of the selected element“.
-
Gehen Sie zur Datenvorschau - Klicken Sie doppelt auf die Kopfzeilen zum Umbennen der Datenfelder.
Schritt 3: Überprüfen Sie den Workflow
Folgend liegt der entgültige Workflow. Wenn alles in Ordnung ist, können Sie weiter die Aufgabe ausführen.
Schritt 4: Ausführung der Aufgabe und Exportieren der Daten
-
Klicken Sie auf „Run“, was ganz oben rechtes liegt, um Ihre Aufgabe auszuführen: Wählen Sie „Run task on your device“ zur Ausführung auf Ihrem eigenen Gerät.
Hier sind Daten für die Beispielaufgabe.