Scraping der Suchergebnissen aus Google Scholar
Wednesday, June 15, 2022 11:41 AMIn diesem Tutorial erfahren Sie, wie man die Suchergebnissen aus Google Scholar extrahiert.
Überblick
Lösung 1: Verwenden Sie einfach die Aufgabenvorlage für Google Scholar auf dem Template von Octoparse.
Lösung 2: Erstellen Sie Ihre eigne Aufgabe für die Daten-Scraping aus Google Scholar.
In diesem Teil erfahren Sie deutliche Hinweise über den Ablauf einer Erstellung der Daten-Scraping-Aufgabe. Damit ist eine URL als Beispiel herausgegeben und die Ziedaten beziehen sich um den Titel, den Autor, die Beschreibung und andere verwandte Informationen von jeder Suchergebnisseite.
Hier ist ein Überblick über die Schritte.
Schritt 1: „Go To Web Page” - Öffnen Sie die Ziel-Webseite.
• Geben Sie die URL auf der Startseite ein und klicken Sie auf „Start”.

Schritt 2: Erstellen Sie ein „Loop Item” für Eingeben der Keywords-Gruppe.
• Fügen Sie ein „Loop Item” im Workflow hinzu.

• Klicken Sie auf „Loop Item” und machen dessen Einrichtung auf.
• Stellen Sie das Loop Mode zu „Text List” ein.
• Klicken Sie auf das Icon


• Geben Sie die Keywords-Gruppe ein. (data mining, big data u.s.w) Eine Zeile nur für ein Keyword.

• Klicken Sie auf „Confirm” und „Apply”.
• Klicken Sie auf den Suchkasten auf der Webseite.
• Wählen Sie „Enter text”.

• Bestimmen Sie es, dass „Enter text” soll direkt in „Loop Item”, falls nicht, schleppen Sie diese Aktion ins „Loop Item”.
• Klicken Sie auf „Enter text” und wählen Sie „Use text in the loop to enter the text box”.

• Klicken Sie auf „OK”.
• Klicken Sie auf den Suchbutton auf der Webseite.
• Wählen Sie „Click button” und die Aktion „Click Item” wird in dem Workflow schon hinzugfügt.

• Machen Sie die Einrichtung von „Click Item” auf und dann geben den Wert von „AJAX timeout” ein.

Schritt 3: Erstellen Sie einen Workflow nach der automatische Detektion der Webseite.
• Klicken Sie auf „Auto-detect web page data” und warten Sie, bis die Detektion abgeschlossen ist.
• Überprüfen Sie die Datenfelder in der Datenvorschau, und Sie können auch bei Bedarf die unerwünschten Felder löschen oder Felder umbenennen.
• Überprüfen Sie die Einstellung von „Paginate to scrape more pages”, die dem Button für Nächste Seite entsprechen solle.
• Editieren Sie XPath von Pagination und klicken Sie auf „Confirm”.
• Deaktivieren Sie „Add a page scroll”.
• Klicken Sie auf „Create workflow”.

Schritt 4: Richten Sie die Wartezeit für Verlangsamen der Scrapingsgeschwindigkeit.
• Klicken Sie auf „Extract Data”.
• Aktivieren Sie „Wait before action” und stellen den Wert davon auf 3s.

• Klicken Sie auf „Apply” zum Bestätigen.
Schritt 5: Scraping starten, um die Aufgabe auszuführen und Daten zu erhalten.
• Klicken Sie auf „Save”.
• Klicken Sie auf „Run”.
• Wählen Sie „Run on your device”, um die Aufgabe mit Ihrem lokalen Gerät auszuführen.
Hier ist eine Datenausgabe als Beispiel.

Autor*in: Das Octoparse Team