Scraping Produktinformationen von Target.com (Version 8)
Thursday, June 10, 2021 2:45 PMTarget.com ist einer der größten Online-Händler in USA. In diesem Tutorial zeigen wir Ihnen, wie Sie die Produktinformationen von Target.com scrapen können.
Aufgrund der Struktur der Website müssen wir 2 Aufgaben erstellen, um das Scraping-Ziel zu erreichen. Wir werden zuerst in Aufgabe 1 alle URLs von Detailseiten scrapen und dann die detaillierten Produktinformationen, wie z. B. den Produkttitel, den Preis und die Beschreibung von der Produktdetail-Seite in Aufgabe 2 extrahieren. Indem wir die Aufgabe in zwei aufteilen, wird der Extraktionsprozess deutlich beschleunigen, insbesondere wenn wir Cloud-Extraktion verwenden.
Zum Nachvollziehen können Sie diese URL im Tutorial verwenden:
https://www.target.com/c/milk-substitutes-dairy-grocery/-/N-5xszh?lnk=MilkMilkSubstit
Hier sind die wichtigsten Schritte in diesem Tutorial: [Aufgabendatei hier herunterladen]
Aufgabe 1: Extrahieren alle URLs von Detailseiten auf den Suchergebnisseiten
1. "Go To Web Page" - Öffnen die Ziel-Webseite
2. Detektieren automatisch die Daten von der Webseite - Erstellen einen Workflow
3. Stellen AJAX-Wartezeit für die Aktion "Click to Paginate" ein
4. Speichern und starten, um die Aufgabe auszuführen und Daten zu erhalten
Aufgabe 2: Scrapen die Produktdaten aus den gescrapten URLs: [Aufgabendatei hier herunterladen]
1. Geben die gescrapten URLs ein - Öffnen die Detailseiten
2. Extrahieren Daten - Wählen die Daten für die Extraktion
3. Stellen die Wartezeit ein, um das Scraping zu verlangsamen
4. Speichern und starten, um die Aufgabe auszuführen und Daten zu erhalten
Aufgabe 1: Extrahieren alle URLs von Detailseiten auf den Suchergebnisseiten
1. "Go To Web Page" - Öffnen die Ziel-Webseite
• Geben Sie die URL auf der Startseite ein und klicken Sie auf Start
2. Detektieren automatisch die Daten von der Webseite - Erstelleneinen Workflow
• Klicken auf "Auto-detect web page data" und warten, bis die Detektion abgeschlossen ist
• Überprüfen Sie die Datenfelder in der Datenvorschau, und Sie können auch die unerwünschten Felder löschen oder Felder umbenennen
, falls erforderlich
• Klicken auf "Create workflow"
3. Stellen AJAX-Wartezeit für die Aktion "Click to Paginate"ein
Die Website verwendet die Technik „AJAX“, um die nächsten Seiten zu laden, daher müssen wir eine AJAX-Wartezeit einstellen.
• Öffnen die Einstellungen der Aktion "Click to Paginate"
• Wählen "Load with AJAX"
• Stellen die Wartezeit auf 7-10s ein
4. Speichern und starten, um die Aufgabe auszuführen und Daten zu erhalten
• Klicken auf "Save"
• Klicken auf "Run"
• Wählen "Run on your device", um die Aufgabe mit Ihrem lokalen Gerät auszuführen, oder Wählen "Run in the Cloud", um die Aufgabe auf unseren Cloud-Servern auszuführen (nur für Premium-Benutzer)
Hier sind die Beispieldaten von Aufgabe 1.
Aufgabe 2: Scrapen die Produktdaten aus den gescrapten URLs
1. Geben die gescrapten URLs ein - Öffnen die Detailseiten
In Aufgabe 1 haben wir bereits URLs von Detailseiten gescrapt.
• Klicken auf "New +", um Aufgabe 2 zu erstellen
• Wählen "Enter manually", und fügen Sie die gescrapten URLs ein
• Klicken auf "URL speichern"
Tipps!
Es gibt drei Möglichkeiten, mehrere URLs in eine Aufgabe zu importieren (Die importierten URLs sollen nicht mehr als eine Million sein.).
Sie können auch die URLs aus der Aufgabe 1 kopieren und sie dann in den Textfeld "Website" einfügen. Weitere Informationen finden Sie hier: Importieren mehrere URLs
2. Extrahieren Daten - Wählen die Daten für die Extraktion
• Wählen Informationen auf der Webseite aus
• Wählen "Extract text of the selected element"
• Wiederholen die obigen Schritte, um alle benötigten Daten zu extrahieren
• Klicken auf , um die Feldnamen zu ändern (Optional)
3. Stellen die Wartezeit ein, um das Scraping zu verlangsamen
• Öffnen die Einstellungen der Aktion "Extract Data"
• Markieren "Wait before action"
• Stellen die Wartezeit als 7-10s ein
4. Speichern und starten, um die Aufgabe auszuführen und Daten zu erhalten
• Klicken auf "Save"
• Klicken auf "Run"
• Wählen "Run on your device", um die Aufgabe mit Ihrem lokalen Gerät auszuführen, oder Wählen "Run in the Cloud", um die Aufgabe auf unseren Cloud-Servern auszuführen (nur für Premium-Benutzer)
Hier sind die Beispieldaten.