Scraping der Hotel-Infos von Tripadvisor
Friday, September 09, 2022 5:44 PMTripAdvisor bietet Online-Hotelreservierungen und Buchungen für Transport, Unterkunft, Reiseerlebnisse und Restaurants. Nutzer können durch den Vergleich von Hotels und Restaurants auf der Plattform einen besseren Service finden, um ihre Reise besser genießen zu können.
In diesem Tutorial zeigen wir Ihnen, wie Sie Hoteldaten von Tripadvisor scrapen können.
Für das Scraping von Tripadvisor können Sie unsere gebrauchsfertige Aufgabenvorlage verwenden, die Sie auf der Homepage finden, oder Sie folgen dieser Anleitung, um die Aufgabe von Grund auf neu zu erstellen.
Zur Veranschaulichung wird diese URL als Beispiel verwendet: https://www.tripadvisor.com/Hotels-g186338-London_England-Hotels.html
Tipps: Wenn Sie überprüfen wollen, ob Ihr Arbeitsablauf korrekt funktioniert, laden Sie bitte die Aufgaben-OTD-Datei für diesen Fall am Ende dieser Seite herunter.
Hier sind die hauptsächlichen Schritte in diesem Tutorial:
Schritt 1: Erstellung von „Go to Web Page“ - um die Ziel-Website zu öffnen
Schritt 2: Klicken auf „See all“ - um alle Hotels herunterzuladen
Schritt 3: Erstellung einer Paginierung - um die Daten aus verschiedenen Seiten zu scrapen
Schritt 4: Erstellung eines „Loop Item“ - um die Daten aus der Listing zu scrapen
Schritt 5: Speichern und Durchführung der Aufgabe - um die Daten zu erhalten
Schritt 1: Erstellung von „Go to Web Page“ - um die Ziel-Website zu öffnen
-
· Kopieren Sie die URL und klicken Sie dann auf „Start“.
Schritt 2: Klicken auf „See all“ - um alle Hotels herunterzuladen
Wir müssen zuerst auf den „See all“ Button klicken, um alle Hotels angezeigt zu werden.
-
· Selektieren Sie den „See all“ Button.
-
· Wählen Sie dann „Click Button“ auf der Tipps-Platte.
-
· Stellen Sie AJAX als „5s“ ein.
Schritt 3: Erstellung einer Paginierung - um die Daten aus verschiedenen Seiten zu scrapen
-
· Scrollen Sie nach unten, um den Button „Next“ zu finden.
-
· Wählen Sie „Loop click next page“ aus.
-
· Stellen Sie „Set AJAX timeout“ als „10s“ ein.
Schritt 4: Erstellung eines „Loop Item“ - um die Daten aus der Listing zu scrapen
-
· Klicken Sie auf 2 zufällige Hoteltitel.
-
· Selektieren Sie „Loop click each URL“.
-
· Klicken Sie auf jedes Datum, was Sie extrahieren möchten.
-
· Selektieren Sie „Extract the text of the element“.
-
· Wiederholen Sie den obenen Schritt, bis alle benötigten Daten ausgewählt sind.
-
· Gehen Sie zur „Data Preview“. Dann klicken Sie doppelt darauf, um das Feld umzubenennen.
-
· Modifizieren Sie den XPath von dem „Loop Item“: //a[@data-clicksource="HotelName"]
Folgend ist der endgültige Workflow. Wenn alles in Ordnung ist, können Sie die Aufgabe weiter durchzuführen.
Schritt 5: Speichern und Durchführung der Aufgabe - um die Daten zu erhalten
-
· Führen Sie die Aufgabe in der oben rechten Ecke durch.
-
· Wählen Sie „Run on your device“, um die Aufgabe auf Ihrem eigenen Gerät durchzuführen. Oder selektieren Sie „Run in the cloud“, um die Aufgabe in der Cloud durchzuführen (nur für Premium-Nutzer).
Hier ist das Output-Beispiel:
Task File - Tripadvisor_20220814104119_1.otd
Autor*in: Das Octoparse Team