Scraping der Artikel von Medium
Vor über einer Woche aktualisiert

Sie folgen jetzt einem Tutorial für die neueste Version von Octoparse. Wenn Sie zur Zeit eine ältere Version verwenden, empfehlen wir Ihnen kräftig es, ein Upgrade zu machen, weil sie schneller, leichter und stärker ist! Herunterladen und Installierung eines Upgrades hier, wenn Sie nicht so bereits machen!

Medium ist eine öffentliche Plattform, wo Leser dynamische Ansichten finden können und wo Experten sowie unentdeckte Stimmen ihre Texte zu jedem Thema veröffentlichen können.

Dieses Tutorial würde Ihnen zeigen, wie die Artikel von Medium extrahiert werden können.

Scraping der Artikel von Medium

Die Beispiel-URL in diesem Tutorial ist: https://medium.com/search?q=covid

Notiz: Wenn Sie es überprüfen möchten, ob Ihr Workflow richtig funktioniert, können Sie die OTD-Datei der Aufgabe für diesen Fall am Ende dieser Seite herunterladen.


1. Erstellung von „Go to Web Page“ - um die Ziel-Website zu öffnen

  • Geben Sie die Ziel-URL in die Suchleiste auf dem Startbildschirm ein und dann klicken Sie auf „Start“.

go to web page


2. Einrichtung der Paginierung - um mehrere Artikel zu scrapen

  • Klicken Sie auf „Show more“ Button.

  • Klicken Sie auf „Loop click single button“ in den Tipps.

loop click single button

  • Geben Sie den Xpath für die Paginierung ein, wie z. B. //button[contains(text(),'Show more')]

  • Klicken Sie auf „Apply“.

xpath eingeben

Richten Sie Scrollen der Seite nach dem Laden neuer Inhalte ein.

  • Klicken Sie auf „Click to paginate“ Schritt.

  • Klicken Sie auf „Options“.

  • Wählen Sie „Scroll down the page after it is loaded“.

  • Selektieren Sie „for one screen“ unter dem Scroll.

  • Richten Sie die Frequenz des Scrolls als 100 ein.

  • Klicken Sie auf „Apply“.

Scrollen der Seite einrichten


3. Erstellung von „Loop click“ - um die Artikel anzuklicken

  • Klicken Sie auf einen Titel.

  • Klicken Sie auf „Select All“ in den Tipps, nachdem der Titel grün geworden ist. Dann würde Octoparse alle Titel auswählen.

select all

  • Klicken Sie auf „Loop click each element“ in den Tipps.

loop click each element

Modifizieren Sie die Einstellungen von „Loop Item“.

  • Klicken Sie „Loop Item frame“.

  • Wählen Sie „Variable List“ als Loop-Modus.

  • Geben Sie den entsprechenden Xpath ein: //a[@aria-label="Post Preview Title"]/div/h2.

  • Klicken Sie auf „Apply“.

loop mode erstellen und xpath eingeben

  • Deaktivieren Sie „Extract data in the loop“ für die Einstellungen von „Extract Data“.

  • Klicken Sie auf „Apply“.

load with AJAX deaktivieren


4. Extrahieren der Daten - um die Zieldaten auszuwählen

  • Klicken Sie auf die gewünschten Daten.

gewünschte Daten wählen

  • Löschen Sie die nicht gewünschten Daten, indem Sie auf das Symbol vom Löschen klicken.

daten löschen

  • Klicken Sie auf „Extract data“ aus dem Tipps-Kästchen.

auf Extract data klicken

  • Deaktivieren Sie „Extract data in the loop“ für die Einstellungen von „Extract Data“.

  • Klicken Sie auf „Apply“ zur Speicherung der Einstellungen.

extract data in the loop deaktivieren und speichern

  • Klicken Sie doppelt auf die Überschrift des Feldes, um es umzubenennen.

Felder umbenennen


5. Modifizierung des Xpath für das Datenfeld - um die Elemente exakt für jede detallierte Seite zu lokalisieren

Der automatisch generierte XPath von Octoparse für die Datenfelder könnte vielleicht nicht für alle Seite funktionieren. Wir können XPath für die Elemente umschreiben, um es sicherzustellen, dass der Xpath für jede Seite geeignet ist.

  • Verändern Sie die Datenvorschau in eine vertikale Ansicht.

  • Geben Sie Xpath in das folgende Datenfeld ein:

    • author: //div[contains(@class,'author')]//a

    • published_time: //p[contains(@class,'published-date')]/span

    • title: //h1[contains(@class,'post-title')]

    • sub_title: //h2[contains(@class,'subtitle')]

    • article: //article[@class="meteredContent"]/div

XPath eingeben


6. Zurück zur vorherigen Seite - um zur Listenseiten zurückzukehren

Die Medium-Website lädt die Artikeldetailseite mit AJAX, so dass die Artikelseite die vorherige Auflistungsseite überdeckt, sobald wir einen Artikel öffnen. In diesem Fall müssen wir einen Schritt hinzufügen, um zurück zur Auflistungsseite zu gelangen.

  • Klicken Sie auf „+“ Symbol unter „Extract Data“, um einen Schritt hinzuzufügen.

  • Klicken Sie auf „Back to Previous Page“.

Back to Previous Page

Der endgültige Workflow sieht wie folgend aus:

endgültiger Workflow


7. Durchführung der Aufgabe - um die Zieldaten zu bekommen

  • Klicken Sie zuerst auf den „Save“ Button zur Speicherung aller Einstellungen, dass Sie gemacht haben.

  • Dann klicken Sie auf „Run“, um Ihre Aufgabe lokal oder in der Cloud durchzuführen.

die Einstellungen zur Speicherung

  • Selektieren Sie „Run on your device“ und danach klicken Sie auf „Run Now“, um die Aufgabe auf Ihrem lokalen Gerät durchzuführen.

  • Warten Sie darauf, bis die Aufgabe abgeschlossen ist.

Run on your device

Folgend ist eine einfache Liste von durchgeführten Daten aus der lokalen Durchführung. Für den Export stehen die Formate Excel, CSV, HTML und JSON zur Verfügung.

die Liste von durchgeführten Daten

Tipps: Medium erfordert ein Premium-Konto, um mehr Artikel anzuzeigen. Möglicherweise müssen Sie sich bei Ihrem Konto anmelden, um mehr Daten zu erhalten. Hier ist das zugehörige Tutorial: Daten Scraping nach dem Anmelden.

Die Datei vom Beispiel: Medium.otd

Hat dies Ihre Frage beantwortet?