Scrapen Suchergebnisse von Bing
Wednesday, June 09, 2021 12:27 PMIn diesem Tutorial zeigen wir Ihnen, wie Sie Suchergebnisse von Bing.com scrapen können.
Für Bing können Sie unsere "Aufgabenvorlage" benutzen. Alles, was Sie brauchen, ist die Eingabe einiger Parameter und die Aufgabe ist fertig. Für weitere Details schauen Sie bitte hier nach: Aufgabenvorlagen .
Zum Nachvollziehen können Sie diese URL im Tutorial verwenden:
Wir werden Daten wie den Titel, die URL und die Beschreibung aus der Suchergebnisliste mit Octoparse scrapen.
Hier sind die wichtigsten Schritte in diesem Tutorial: [Aufgabendatei hier herunterladen]
1. "Go To Web Page" - Öffnen die Ziel-Webseite
2. Erstellen ein „Paginierung-Loop“ - Scrapen alle Ergebnisse von mehreren Seiten
3. Extrahieren Daten - Scrapen bestimmte Elemente aus jeder Seite
4. Führen Sie Ihre Aufgabe aus - Erhalten die gewünschten Daten
1. "Go To Web Page" - Öffnen die Ziel-Webseite
• Geben Sie die Beispiel-URL ein und klicken Sie auf "Start".
2. Erstellen ein „Paginierung-Loop“- Scrapen alle Ergebnisse von mehreren Seiten
• Scrollen nach unten und klicken auf den Button ">" auf der Webseite
• Klicken auf "Loop click single URL" in Tipps
Nachdem die Aktion "Pagination" erstellt wurde, können Sie überprüfen, ob die Paginierung gut funktioniert, indem Sie manuell auf die Aktionen "Pagination" und "Click to Paginate" im Workflow klicken (wie das GIF zeigt).
3. Extrahieren Daten - Scrapen bestimmte Elemente aus jeder Seite
Beginnen wir mit dem ersten Element in der Suchergebnisliste zu scrapen, die keine Anzeige ist.
• Klicken auf den Titel des Elements auf der Seite
• Klicken auf "Select all" in Tipps
Die ähnlichen Elemente werden erfolgreich ausgewählt.
• Wählen "Extract text of the selected elements" in "Tipps"
Wenn alle Abschnitte rot hervorgehoben sind, bedeutet dies, dass der Schritt „Loop“ erfolgreich erstellt wird. Es wird auch ein Feld mit dem Titel generiert. Sie können das beibehalten.
• Wählen ein Element aus der Liste von „Loop“ aus, und das ausgewählte Element wird sofort blau hervorgehoben.
• Klicken auf den Titel des Eintrags
• Wählen "Extract the URL of the selected link" in "Tipps
• Wenn Sie die Beschreibung benötigen, klicken Sie auf den Text und wählen Sie dann "Extract the text of the selected element"
• Sie können auch einige vordefinierte Datenfelder über das "+"-Symbol hinzufügen. In diesem Fall habe ich "Current date & time" gewählt, um die Zeit der Extrahierung zu erhalten.
• Wenn Sie den Feldnamen umbenennen möchten, klicken Sie einfach auf das Symbol
Hier bemerken wir, dass einige Anzeigen immer noch extrahiert werden, aber wir brauchen die Anzeigen nicht. Daher können wir den XPath ändern, damit nur die Element, die wir brauchen, lokalisiert werden.
• Klicken auf und geben den neuen XPath //li[@class='b_algo'] ein
• Klicken auf "OK"
Tipps!
Der modifizierte XPath funktioniert besser als der automatisch generierte XPath und bietet mehr Flexibilität und Genauigkeit.
Wenn Sie mehr über den XPath erfahren möchten, sind hier einige relevanten Tutorials, die Sie brauchen könnten:
• Was ist XPath und wie man es in Octoparse verwendet
4. Führen Sie Ihre Aufgabe aus - Erhalten die gewünschten Daten
• Klicken auf "Save"
• Klicken auf "Run"
• Wählen "Run on your device", um die Aufgabe mit Ihrem lokalen Gerät auszuführen, oder Wählen "Run in the Cloud", um die Aufgabe auf unseren Cloud-Servern auszuführen (nur für Premium-Benutzer)
Hier sind die Beispieldaten.
Viel Spaß bei der Datenjagd!