In diesem Tutorial erfahren Sie, wie man die Kundenbewertungen von Tripadviser extrahieren kann. Dazu ist eine URL als Beispiel herausgegeben und die Ziedaten beziehen sich um die Hotel-Infos, Kundenamen und Bewertungen.
Schritt 1: „Go To Web Page” - Öffnen Sie die Ziel-Webseite.
Geben Sie die URL auf der Startseite ein und klicken Sie auf „Start”.
Schritt 2: Erstellen Sie einen Workflow nach der automatische Detektion der Webseite.
Klicken Sie auf „Auto-detect web page data” und warten Sie, bis die Detektion abgeschlossen ist.
Überprüfen Sie die Datenfelder in der Datenvorschau, und Sie können auch bei Bedarf die unerwünschten Felder löschen oder Felder umbenennen.
Deaktivieren Sie „Add a page scroll” und klicken Sie auf „Create workflow”.
Schritt 3: Klicken Sie auf die Linken, um Bewertungsinfo zu erhalten.
Klicken Sie auf „Click on link(s) to scrape the linked page(s)”.
Wählen Sie „Title URL” und klicken auf „Confirm” .
Modifizieren Sie XPath der URLs für präzise Lokalisierung der Titellinken.
Klicken Sie auf „Click URLs in the list” und geben Sie XPath ein: //a[contains(@class,"property_title prominent")]
Schritt 4: Erstellen Sie ein „Loop Item” um Detail-Infos der Bewertungen zu erhalten.
Wählen Sie die ihnen gewünschten Daten auf Webseite und klicken Sie auf „Extract the text of the selected element”.
Scrollen Sie die Seite nach unten, wählen Sie die ersten zwei Bewertungen und klicken auf „Extract the text of the selected elements”.
Wählen Sie die Daten (von Benutzernamen und Bewertungen), und klicken Sie auf „Extract the text of the selected link”.
Schritt 5: Erstellen Sie „Pagination”, um die Bewertungen mehrer Seiten zu extrahieren.
Scrollen Sie die Seite nach unten, klicken auf den Button für „Next” und „Loop click next page”.
Stellen Sie den Wert von AJAX ein.
Schritt 6: Modifizieren Sie XPath der Datenfeldern.
Klicken Sie auf „Vertical View”.
Modifizieren Sie XPath von Daten.
Hier sind XPath-Beipiele für die Daten auf Tripadviser.
Phone number: //div[@data-blcontact="PHONE "]
Address: //span[contains(@class,'map')]/following-sibling::span[1]
Number of reviews: //a[@href="#REVIEWS"]
Reviewer name: //a[contains(@class, "header_link")]
Review title: //div[@data-test-target="review-title"]
Review rating: //div[@data-test-target="review-rating"]
Date of stay: //span[contains(text(),"Date of stay:")]/..
Review content: //div[@data-test-target="review-title"]/following-sibling::div[1]
Schritt 7: Reinigen Sie die Daten, um die Felder neu zu formatieren.
Für die Felder von „Rating”, „Date of Stay” und „Review time” können Sie möglicherweise feststellen, dass die Daten durch XPath-Modifizieren nicht so genau sind. Deswegen ist die Datenreinigung benötigt. Dazu
Klicken Sie wie z.B. auf die Daten von „Rating”, und wählen Sie „Extract the outer HTML of the selected element”.
Klicken Sie dann auf „Clean data”>„Add Step”>„Match with Regular Expression” nacheinander.
Wählen Sie „Try RegEx Tool”.
Geben Sie „rating bubble_” auf „Start with” und " auf „End with”.
Klicken Sie auf „Generate” und „Apply”.
Fügen Sie einen Schritt „Replace with Regular Expression” hinzu.
Geben Sie dann „ ([0-9]+)([0-9]{1})” in „Regular Expression” ein.
Geben Sie „ $1.$2” in „With” ein.
Schritt 8: Scraping starten, um die Aufgabe auszuführen und Daten zu erhalten.
Klicken Sie auf „Save”.
Klicken Sie auf „Run”.
Wählen Sie „Run on your device”, um die Aufgabe mit Ihrem lokalen Gerät auszuführen, oder wählen Sie „Run in the Cloud”, um die Aufgabe auf unseren Cloud-Servern auszuführen (nur für Premium-Benutzer)
Hier ist eine Datenausgabe als Beispiel.