undefined

Scraping der Hotel-Infos von Tripadvisor

Friday, September 09, 2022 5:44 PM
TripAdvisor bietet Online-Hotelreservierungen und Buchungen für Transport, Unterkunft, Reiseerlebnisse und Restaurants. Nutzer können durch den Vergleich von Hotels und Restaurants auf der Plattform einen besseren Service finden, um ihre Reise besser genießen zu können.
In diesem Tutorial zeigen wir Ihnen, wie Sie Hoteldaten von Tripadvisor scrapen können.
Für das Scraping von Tripadvisor können Sie unsere gebrauchsfertige Aufgabenvorlage verwenden, die Sie auf der Homepage finden, oder Sie folgen dieser Anleitung, um die Aufgabe von Grund auf neu zu erstellen.

 

 Vorlage von Tripadbisor in Octoparse

 

Zur Veranschaulichung wird diese URL als Beispiel verwendet: https://www.tripadvisor.com/Hotels-g186338-London_England-Hotels.html

 

Tipps: Wenn Sie überprüfen wollen, ob Ihr Arbeitsablauf korrekt funktioniert, laden Sie bitte die Aufgaben-OTD-Datei für diesen Fall am Ende dieser Seite herunter.

 

Hier sind die hauptsächlichen Schritte in diesem Tutorial:
Schritt 1: Erstellung von „Go to Web Page“ - um die Ziel-Website zu öffnen
Schritt 2: Klicken auf „See all“ - um alle Hotels herunterzuladen
Schritt 3: Erstellung einer Paginierung - um die Daten aus verschiedenen Seiten zu scrapen
Schritt 4: Erstellung eines „Loop Item“ - um die Daten aus der Listing zu scrapen
Schritt 5: Speichern und Durchführung der Aufgabe - um die Daten zu erhalten

 

 

Schritt 1: Erstellung von „Go to Web Page“ - um die Ziel-Website zu öffnen

  • · Kopieren Sie die URL und klicken Sie dann auf „Start“.

 

 URL kopieren una auf Start klicken

 

 

Schritt 2: Klicken auf „See all“ - um alle Hotels herunterzuladen

Wir müssen zuerst auf den „See all“ Button klicken, um alle Hotels angezeigt zu werden.
  • · Selektieren Sie den „See all“ Button.
  • · Wählen Sie dann „Click Button“ auf der Tipps-Platte.

 

 auf CLICK BUTTON klicken

 

 

  • · Stellen Sie AJAX als „5s“ ein.

     

     AJAX als 5s einstellen

     

     

Schritt 3: Erstellung einer Paginierung - um die Daten aus verschiedenen Seiten zu scrapen

  • · Scrollen Sie nach unten, um den Button „Next“ zu finden.
  • · Wählen Sie „Loop click next page“ aus.
  • · Stellen Sie „Set AJAX timeout“ als „10s“ ein.

 

 Set AJAX timeout als 10s

 

 

Schritt 4: Erstellung eines „Loop Item“ - um die Daten aus der Listing zu scrapen

  • · Klicken Sie auf 2 zufällige Hoteltitel.
  • · Selektieren Sie „Loop click each URL“.

 

 Loop click each URL selektieren

 

  • · Klicken Sie auf jedes Datum, was Sie extrahieren möchten.
  • · Selektieren Sie „Extract the text of the element“.
  • · Wiederholen Sie den obenen Schritt, bis alle benötigten Daten ausgewählt sind.

 

 Schritt wiederholen

 

  • · Gehen Sie zur „Data Preview“. Dann klicken Sie doppelt darauf, um das Feld umzubenennen.

 

 das Feld umbenennen

 

  • · Modifizieren Sie den XPath von dem „Loop Item“: //a[@data-clicksource="HotelName"]

 

 XPath modifizieren

 

Folgend ist der endgültige Workflow. Wenn alles in Ordnung ist, können Sie die Aufgabe weiter durchzuführen.

 

 endgültiger Workflow

 

 

Schritt 5: Speichern und Durchführung der Aufgabe - um die Daten zu erhalten

  • · Führen Sie die Aufgabe in der oben rechten Ecke durch.
  • · Wählen Sie „Run on your device“, um die Aufgabe auf Ihrem eigenen Gerät durchzuführen. Oder selektieren Sie „Run in the cloud“, um die Aufgabe in der Cloud durchzuführen (nur für Premium-Nutzer).

 

 zwei Wahlen von Durchführung

 

Hier ist das Output-Beispiel:

 

 Output-Beispiel

Task File - Tripadvisor_20220814104119_1.otd

 

Autor*in: Das Octoparse Team
Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen