Sie folgen jetzt einem Tutorial für die neueste Version von Octoparse. Wenn Sie zur Zeit eine ältere Version verwenden, empfehlen wir Ihnen kräftig es, ein Upgrade zu machen, weil sie schneller, leichter und stärker ist! Herunterladen und Installierung eines Upgrades hier, wenn Sie nicht so bereits machen!
Medium ist eine öffentliche Plattform, wo Leser dynamische Ansichten finden können und wo Experten sowie unentdeckte Stimmen ihre Texte zu jedem Thema veröffentlichen können.
Dieses Tutorial würde Ihnen zeigen, wie die Artikel von Medium extrahiert werden können.
Die Beispiel-URL in diesem Tutorial ist: https://medium.com/search?q=covid
Notiz: Wenn Sie es überprüfen möchten, ob Ihr Workflow richtig funktioniert, können Sie die OTD-Datei der Aufgabe für diesen Fall am Ende dieser Seite herunterladen.
1. Erstellung von „Go to Web Page“ - um die Ziel-Website zu öffnen
Geben Sie die Ziel-URL in die Suchleiste auf dem Startbildschirm ein und dann klicken Sie auf „Start“.
2. Einrichtung der Paginierung - um mehrere Artikel zu scrapen
Klicken Sie auf „Show more“ Button.
Klicken Sie auf „Loop click single button“ in den Tipps.
Geben Sie den Xpath für die Paginierung ein, wie z. B. //button[contains(text(),'Show more')]
Klicken Sie auf „Apply“.
Richten Sie Scrollen der Seite nach dem Laden neuer Inhalte ein.
Klicken Sie auf „Click to paginate“ Schritt.
Klicken Sie auf „Options“.
Wählen Sie „Scroll down the page after it is loaded“.
Selektieren Sie „for one screen“ unter dem Scroll.
Richten Sie die Frequenz des Scrolls als 100 ein.
Klicken Sie auf „Apply“.
3. Erstellung von „Loop click“ - um die Artikel anzuklicken
Klicken Sie auf einen Titel.
Klicken Sie auf „Select All“ in den Tipps, nachdem der Titel grün geworden ist. Dann würde Octoparse alle Titel auswählen.
Klicken Sie auf „Loop click each element“ in den Tipps.
Modifizieren Sie die Einstellungen von „Loop Item“.
Klicken Sie „Loop Item frame“.
Wählen Sie „Variable List“ als Loop-Modus.
Geben Sie den entsprechenden Xpath ein: //a[@aria-label="Post Preview Title"]/div/h2.
Klicken Sie auf „Apply“.
Deaktivieren Sie „Extract data in the loop“ für die Einstellungen von „Extract Data“.
Klicken Sie auf „Apply“.
4. Extrahieren der Daten - um die Zieldaten auszuwählen
Klicken Sie auf die gewünschten Daten.
Löschen Sie die nicht gewünschten Daten, indem Sie auf das Symbol vom Löschen klicken.
Klicken Sie auf „Extract data“ aus dem Tipps-Kästchen.
Deaktivieren Sie „Extract data in the loop“ für die Einstellungen von „Extract Data“.
Klicken Sie auf „Apply“ zur Speicherung der Einstellungen.
Klicken Sie doppelt auf die Überschrift des Feldes, um es umzubenennen.
5. Modifizierung des Xpath für das Datenfeld - um die Elemente exakt für jede detallierte Seite zu lokalisieren
Der automatisch generierte XPath von Octoparse für die Datenfelder könnte vielleicht nicht für alle Seite funktionieren. Wir können XPath für die Elemente umschreiben, um es sicherzustellen, dass der Xpath für jede Seite geeignet ist.
Verändern Sie die Datenvorschau in eine vertikale Ansicht.
Geben Sie Xpath in das folgende Datenfeld ein:
author: //div[contains(@class,'author')]//a
published_time: //p[contains(@class,'published-date')]/span
title: //h1[contains(@class,'post-title')]
sub_title: //h2[contains(@class,'subtitle')]
article: //article[@class="meteredContent"]/div
6. Zurück zur vorherigen Seite - um zur Listenseiten zurückzukehren
Die Medium-Website lädt die Artikeldetailseite mit AJAX, so dass die Artikelseite die vorherige Auflistungsseite überdeckt, sobald wir einen Artikel öffnen. In diesem Fall müssen wir einen Schritt hinzufügen, um zurück zur Auflistungsseite zu gelangen.
Klicken Sie auf „+“ Symbol unter „Extract Data“, um einen Schritt hinzuzufügen.
Klicken Sie auf „Back to Previous Page“.
Der endgültige Workflow sieht wie folgend aus:
7. Durchführung der Aufgabe - um die Zieldaten zu bekommen
Klicken Sie zuerst auf den „Save“ Button zur Speicherung aller Einstellungen, dass Sie gemacht haben.
Dann klicken Sie auf „Run“, um Ihre Aufgabe lokal oder in der Cloud durchzuführen.
Selektieren Sie „Run on your device“ und danach klicken Sie auf „Run Now“, um die Aufgabe auf Ihrem lokalen Gerät durchzuführen.
Warten Sie darauf, bis die Aufgabe abgeschlossen ist.
Folgend ist eine einfache Liste von durchgeführten Daten aus der lokalen Durchführung. Für den Export stehen die Formate Excel, CSV, HTML und JSON zur Verfügung.
Tipps: Medium erfordert ein Premium-Konto, um mehr Artikel anzuzeigen. Möglicherweise müssen Sie sich bei Ihrem Konto anmelden, um mehr Daten zu erhalten. Hier ist das zugehörige Tutorial: Daten Scraping nach dem Anmelden.
Die Datei vom Beispiel: Medium.otd