undefined

Scrapen Geschäftsdetails aus Yell  

Friday, June 11, 2021 11:09 AM

Yell ist das führende Online-Branchenbuch in Großbritannien. In diesem Tutorial zeigen wir Ihnen, wie Sie Geschäftsdetails aus Yell.com mit Octoparse scrapen können.

 

Zur Demonstration verwenden wir die folgende URL als Beispiel.

https://www.yell.com/ucs/UcsSearchAction.do?scrambleSeed=627415385&keywords=dentists&location=London

 

Wir werden Daten wie Titel, Adresse, Telefonnummer und Website von der Webseite scrapen.

 

Hier sind die wichtigsten Schritte in diesem Tutorial: [Aufgabendatei hier herunterladen]

  1. „Go To Web Page“ - Öffnen der Ziel-Webseite

  2. „Auto-detect web page data“ - um den Workflow zu erstellen

  3. „Extract data“ - Modifizieren der Datenfelder

  4. Starten der Extraktion - Ausführung der Aufgabe und Erhalten der Daten

 


1.„Go To Web Page“ - Öffnen der Ziel-Webseite

  • Geben Sie die Beispiel-URL ein und klicken Sie auf „Start“.

 

 Yell

 


2.„Auto-detect web page data“ - um den Workflow zu erstellen

  • Klicken Sie auf „Auto-detect web page data“.

  • Warten Sie, bis die Detektion abgeschlossen ist.

 

 Auto-detect

 

  • Gehen Sie zur Datenvorschau, um zu sehen, ob Sie mit dem aktuellen Output zufrieden sind.

    • Sie können direkt die ungewünschten Datenfelder löschen, indem Sie auf „trash“-Button klicken.

    • Sie können auch durch Klick auf „edit“-Button direkt die Datenfelder-Namen modifizieren.

 

 edit button

 

  • Kreuzen Sie die Option von „Add a page scroll“ nicht an.

  • Klicken Sie auf „Create workflow“.

 

 Create workflow

 

Octoparse würde automatisch einen Workflow mit den Datenfelder generieren, die es detektiert hat.

 

 Workflow

 


3.„Extract data“ - Datenextraktion von Telefonnummern und Webseiten

Es gibt hier einige Information, die nicht durch der automatischen Erkennungsfunktion detektiert wird. Und wir können sie selektieren, um sie manuell zu scrapen.

  • Wählen Sie die Website der ersten Unternehmen auf der Webseite (notieren, dass Sie im in Rot hervorgehobenen Bereich dieses Datenfeld auswählen sollten).

  • Selektieren Sie „Extract the URL of the selected link“.

 

 Extract the URL of the selected link

 

  • Klicken Sie auf ... und modifizieren Sie den XPath der URL als //a[contains(text(),'Website')].

  • Klicken Sie auf „Apply“ zur Speicherung.

 

 Apply

 

Scraping der Telefonnummern ist in diesem Fall schwierig, da die Nummern nicht auf der Webseite sichtbar sind, sondern im HTML-Code gespeichert sind. Wir können ein Feld scrapen und den XPath des Feldes ändern, um die Telefonnummer zu erhalten.

  • Selektieren Sie den „Call“ Button auf der Seite und wählen Sie „Extract the text of the element“.

 

 Extract the text of the element

 

  • Klicken Sie auf ... und modifizieren Sie den XPath vom Feld: //span[@itemprop="telephone"]

  • Klicken Sie auf „Apply“ zur Speicherung.

 

 Apply

 

Tipps: Die E-Mail-Adresse können in diesem Fall gescrapt werden, weil diese Webseite keine E-Mail-Adresse in ihrem Code enthält. Klicken Sie auf den E-Mail Button, der Ihnen direkt Information erhalten lässt.

  • Benennen Sie bei Bedarf die Felder um.

 

 Felder umbenennen

 


4.Starten der Extraktion - Ausführung der Aufgabe und Erhalten der Daten

  • Klicken Sie auf „Save“.

  • Klicken Sie auf „Run“.

  • Wählen Sie „Run on your device“, um die Aufgabe mit Ihrem lokalen Gerät auszuführen, oder Wählen „Run in the Cloud“, um die Aufgabe auf unseren Cloud-Servern auszuführen (nur für Premium-Benutzer)

 

Sie können die Ergebnisdaten in angebotene Formate wie EXCEL, CVS, JSON order in Ihre Datenbank exportieren.

 


Hier sind die Beispieldaten.

 Beispieldaten

Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen