Scrapen Geschäftsdetails aus Yell
Friday, June 11, 2021 11:09 AMYell ist das führende Online-Branchenbuch in Großbritannien. In diesem Tutorial zeigen wir Ihnen, wie Sie Geschäftsdetails aus Yell.com mit Octoparse scrapen können.
Zur Demonstration verwenden wir die folgende URL als Beispiel.
https://www.yell.com/ucs/UcsSearchAction.do?scrambleSeed=627415385&keywords=dentists&location=London
Wir werden Daten wie Titel, Adresse, Telefonnummer und Website von der Webseite scrapen.
Hier sind die wichtigsten Schritte in diesem Tutorial: [Aufgabendatei hier herunterladen]
-
„Go To Web Page“ - Öffnen der Ziel-Webseite
-
„Auto-detect web page data“ - um den Workflow zu erstellen
-
„Extract data“ - Modifizieren der Datenfelder
-
Starten der Extraktion - Ausführung der Aufgabe und Erhalten der Daten
1.„Go To Web Page“ - Öffnen der Ziel-Webseite
-
Geben Sie die Beispiel-URL ein und klicken Sie auf „Start“.
2.„Auto-detect web page data“ - um den Workflow zu erstellen
-
Klicken Sie auf „Auto-detect web page data“.
-
Warten Sie, bis die Detektion abgeschlossen ist.
-
Gehen Sie zur Datenvorschau, um zu sehen, ob Sie mit dem aktuellen Output zufrieden sind.
-
Sie können direkt die ungewünschten Datenfelder löschen, indem Sie auf „trash“-Button klicken.
-
Sie können auch durch Klick auf „edit“-Button direkt die Datenfelder-Namen modifizieren.
-
-
Kreuzen Sie die Option von „Add a page scroll“ nicht an.
-
Klicken Sie auf „Create workflow“.
Octoparse würde automatisch einen Workflow mit den Datenfelder generieren, die es detektiert hat.
3.„Extract data“ - Datenextraktion von Telefonnummern und Webseiten
Es gibt hier einige Information, die nicht durch der automatischen Erkennungsfunktion detektiert wird. Und wir können sie selektieren, um sie manuell zu scrapen.
-
Wählen Sie die Website der ersten Unternehmen auf der Webseite (notieren, dass Sie im in Rot hervorgehobenen Bereich dieses Datenfeld auswählen sollten).
-
Selektieren Sie „Extract the URL of the selected link“.
-
Klicken Sie auf ... und modifizieren Sie den XPath der URL als //a[contains(text(),'Website')].
-
Klicken Sie auf „Apply“ zur Speicherung.
Scraping der Telefonnummern ist in diesem Fall schwierig, da die Nummern nicht auf der Webseite sichtbar sind, sondern im HTML-Code gespeichert sind. Wir können ein Feld scrapen und den XPath des Feldes ändern, um die Telefonnummer zu erhalten.
-
Selektieren Sie den „Call“ Button auf der Seite und wählen Sie „Extract the text of the element“.
-
Klicken Sie auf ... und modifizieren Sie den XPath vom Feld: //span[@itemprop="telephone"]
-
Klicken Sie auf „Apply“ zur Speicherung.
Tipps: Die E-Mail-Adresse können in diesem Fall gescrapt werden, weil diese Webseite keine E-Mail-Adresse in ihrem Code enthält. Klicken Sie auf den E-Mail Button, der Ihnen direkt Information erhalten lässt.
-
Benennen Sie bei Bedarf die Felder um.
4.Starten der Extraktion - Ausführung der Aufgabe und Erhalten der Daten
-
Klicken Sie auf „Save“.
-
Klicken Sie auf „Run“.
-
Wählen Sie „Run on your device“, um die Aufgabe mit Ihrem lokalen Gerät auszuführen, oder Wählen „Run in the Cloud“, um die Aufgabe auf unseren Cloud-Servern auszuführen (nur für Premium-Benutzer)
Sie können die Ergebnisdaten in angebotene Formate wie EXCEL, CVS, JSON order in Ihre Datenbank exportieren.
Hier sind die Beispieldaten.