Alle Kollektionen
Praktische Einführung
Suchmaschine
Scraping der Suchergebnissen aus Google Scholar
Scraping der Suchergebnissen aus Google Scholar
Vor über einer Woche aktualisiert

In diesem Tutorial erfahren Sie, wie man die Suchergebnissen aus Google Scholar extrahiert.


Lösung 1: Verwenden Sie einfach die Aufgabenvorlage für Google Scholar auf dem Template von Octoparse.

Scraping der Suchergebnissen aus Google Scholar_01


Lösung 2: Erstellen Sie Ihre eigne Aufgabe für die Daten-Scraping aus Google Scholar.

In diesem Teil erfahren Sie deutliche Hinweise über den Ablauf einer Erstellung der Daten-Scraping-Aufgabe. Damit ist eine URL als Beispiel herausgegeben und die Ziedaten beziehen sich um den Titel, den Autor, die Beschreibung und andere verwandte Informationen von jeder Suchergebnisseite.

Hier ist ein Überblick über die Schritte.

Schritt 1: „Go To Web Page” - Öffnen Sie die Ziel-Webseite.

  • Geben Sie die URL auf der Startseite ein und klicken Sie auf „Start”.

Scraping der Suchergebnissen aus Google Scholar_02

Schritt 2: Erstellen Sie ein „Loop Item” für Eingeben der Keywords-Gruppe.

  • Fügen Sie ein „Loop Item” im Workflow hinzu.

Scraping der Suchergebnissen aus Google Scholar_03

  • Klicken Sie auf „Loop Item” und machen dessen Einrichtung auf.

  • Stellen Sie das Loop Mode zu „Text List” ein.

  • Klicken Sie auf das Icon 2 im Bild.

Scraping der Suchergebnissen aus Google Scholar_04

  • Geben Sie die Keywords-Gruppe ein. (data mining, big data u.s.w) Eine Zeile nur für ein Keyword.

Scraping der Suchergebnissen aus Google Scholar_05

  • Klicken Sie auf „Confirm” und „Apply”.

  • Klicken Sie auf den Suchkasten auf der Webseite.

  • Wählen Sie „Enter text”.

Scraping der Suchergebnissen aus Google Scholar_06

  • Bestimmen Sie es, dass „Enter text” soll direkt in „Loop Item”, falls nicht, schleppen Sie diese Aktion ins „Loop Item”.

  • Klicken Sie auf „Enter text” und wählen Sie „Use text in the loop to enter the text box”.

Scraping der Suchergebnissen aus Google Scholar_07

  • Klicken Sie auf „OK”.

  • Klicken Sie auf den Suchbutton auf der Webseite.

  • Wählen Sie „Click button” und die Aktion „Click Item” wird in dem Workflow schon hinzugfügt.

Scraping der Suchergebnissen aus Google Scholar_08

  • Machen Sie die Einrichtung von „Click Item” auf und dann geben den Wert von „AJAX timeout” ein.

Scraping der Suchergebnissen aus Google Scholar_09

Schritt 3: Erstellen Sie einen Workflow nach der automatische Detektion der Webseite.

  • Klicken Sie auf „Auto-detect web page data” und warten Sie, bis die Detektion abgeschlossen ist.

  • Überprüfen Sie die Datenfelder in der Datenvorschau, und Sie können auch bei Bedarf die unerwünschten Felder löschen oder Felder umbenennen.

  • Überprüfen Sie die Einstellung von „Paginate to scrape more pages”, die dem Button für Nächste Seite entsprechen solle.

  • Editieren Sie XPath von Pagination und klicken Sie auf „Confirm”.

  • Deaktivieren Sie „Add a page scroll”.

  • Klicken Sie auf „Create workflow”.

Scraping der Suchergebnissen aus Google Scholar_10

Schritt 4: Richten Sie die Wartezeit für Verlangsamen der Scrapingsgeschwindigkeit.

  • Klicken Sie auf „Extract Data”.

  • Aktivieren Sie „Wait before action” und stellen den Wert davon auf 3s.

Scraping der Suchergebnissen aus Google Scholar_11

  • Klicken Sie auf „Apply” zum Bestätigen.

Schritt 5: Scraping starten, um die Aufgabe auszuführen und Daten zu erhalten.

  • Klicken Sie auf „Save”.

  • Klicken Sie auf „Run”.

  • Wählen Sie „Run on your device”, um die Aufgabe mit Ihrem lokalen Gerät auszuführen.

Hier ist eine Datenausgabe als Beispiel.

Scraping der Suchergebnissen aus Google Scholar_12

Hat dies Ihre Frage beantwortet?