undefined

Scraping der Suchergebnisse von Google Search

Tuesday, June 01, 2021 10:26 AM

Das Scraping von Daten aus einer Suchmaschine ist eine gute Möglichkeit, Informationen zu einem Thema zu sammeln. In diesem Tutorial zeigen wir Ihnen, wie Sie die Suchergebnisse der Google-Suche scrapen.

Sie können viele Aufgabenvorlagen im Hauptbildschirm des Octoparse Scraping-Tools finden und direkt mit der vorgefertigten Google-Suchvorlage beginnen, um Ihre Zeit zu sparen. Mit dieser Funktion müssen Sie keine Scraping-Aufgaben konfigurieren. Für weitere Details können Sie hier nachlesen:

Aufgaben-Vorlagen

 

 Aufgabenvorlagen

 

Sie können auch unseren erweiterten Modus verwenden, um Ihre eigene Aufgabe zu erstellen. Wir werden Daten wie den Titel, die URL und die Beschreibung von der Suchergebnisseite mit Octoparse scrapen.

 

 

 

Zum Nachvollziehen können Sie diese URL im Tutorial verwenden: https://www.google.com/

 

Hier sind die wichtigsten Schritte in diesem Tutorial: [Aufgabendatei hier herunterladen ]

  1. Öffnen Sie die Ziel-Webseite

  2. Automatische Detektion der Webseite, um „Enter text“ zu erstellen

  3. Modizifieren der Einstellungen für „Click Item“

  4. Automatische Detektion der Suchergebnisseite, um Daten zu scrapen

  5. Einrichten einer Wartezeit, um die Scraping-Geschwindigkeit zu verlangsamen

  6. Speichern und starten, um die Aufgabe auszuführen und Daten zu erhalten

 


1. Öffnen Sie die Ziel-Webseite

  • Geben Sie die URL auf der Startseite ein und klicken Sie auf „Start“.

 

 URL eingeben

 


2. Automatische Detektion der Webseite, um „Enter text“ zu erstellen

  • Klicken Sie auf „Auto-detect web page“ und warten Sie, bis die Detektion abgeschlossen ist.

 

 Auto-detect web page

 

  • Wählen Sie „Search with keywords“ auf der Tipps-Platte, und Sie würden die Vorstellungen ansehen, die Ihnen helfen, den Workflow zu erstellen.

 

 Search with keywords

 

a. „Add a search box“: Klicken Sie auf „Settings“ und selektieren Sie den Suchkasten auf der Webseite.

 

 Add a search box

 

b. „Add a keyword(s)“: Klicken Sie auf den Edit-Button und geben Sie die Schlüsselwörter ein. Ein Wort per Linie.

 

 Add a keyword(s)

 

c. „Click the search button“: Klicken Sie auf „Click the search button when finishing entering“ und selektieren Sie den Suche-Button auf der Webseite. Schließlich klicken Sie auf „Confirm“ zur Speicherung der Einstellungen.

 

 Click the search button

 

Ein Loop-Item mit einer Aktion von „Enter text“ und einer von „Click Item“ würde im Workflow erstellt:

 

 Workflow

 


3.Modizifieren der Einstellungen für „Click Item“

  • Klicken Sie auf „Click Item“, um die Optionen-Platte einzutreten.

  • Klicken Sie auf „Open in a new tab“.

  • Verlängern Sie das AJAX-Timeout bei Bedarf.

 

 Modizifieren der Einstellungen

 


4. Automatische Detektion der Suchergebnisseite, um Daten zu scrapen

  • Lassen Sie die Seite erneut automatisch detektieren.

  • Kreuzen Sie die Option von „Add a page scroll“ nicht an.

  • Klicken Sie auf „Create workflow“.

 

 Create workflow

 

  • Klicken Sie doppelt darauf, um die Felder umzubenennen, oder löschen Sie die Felder, die Sie nicht wünschen.

 

 Felder umbenennen

 

Tipps!

Wenn die automatische Detektionsfunktion ein paar Felder scrapen möchte, ist es viel bequemer, Ihren Ansichtsmodus in Vertikale Ansicht zu wechseln, um die Daten im Stapel zu löschen.

 

 Ansichtsmodus

 

  • Modifizieren Sie den XPath für Paginierung.

Wenn die automatische Detektionserkennung den Button „NEXT“ nicht lokalisieren kann, können Sie einen genaueren XPath beschreiben, um das Problem zu löschen.

  • Klicken Sie auf „Pagination“ und dann geben Sie diesen XPath unter dem Kasten vom Matching-XPath ein: //span[contains(text(),"Next")]

 

 Matching XPath verändern

 

Tipps!

Überprüfen Sie mehr Details über XPath hier: Was ist XPath und wie zu verwenden?

 


5. Einrichten einer Wartezeit, um die Scraping-Geschwindigkeit zu verlangsamen

Die Google-Suche wendet eine Anti-Scraping-Technik an und würde reCAPTCHA zur Lösung anzeigen. Wir müssen das Scraping durch Einstellen der Wartezeit verlangsamen.

  • Klicken Sie auf „Extract Data“.

  • Selektieren Sie „Options“.

  • Klicken Sie auf „Wait before action“.

  • Stellen Sie die Wartezeit als 1-3s ein und klicken Sie auf „Apply“ zu bestätigen.

 

 Apply

 


6. Speichern und starten, um die Aufgabe auszuführen und Daten zu erhalten

  • Klicken Sie auf „Save“.

  • Klicken Sie auf „Run“.

  • Wählen Sie „Run on your device“, um die Aufgabe mit Ihrem lokalen Gerät auszuführen, oder wählen Sie „Run in the Cloud“, um die Aufgabe auf unseren Cloud-Servern auszuführen (nur für Premium-Benutzer).

 

 ausführen

 


Hier sind Daten für die Beispielaufgabe.

 Beispiel

Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen