undefined

Scraping der Artikel von Medium

Wednesday, August 17, 2022 11:46 AM

Sie folgen jetzt einem Tutorial für die neueste Version von Octoparse. Wenn Sie zur Zeit eine ältere Version verwenden, empfehlen wir Ihnen kräftig es, ein Upgrade zu machen, weil sie schneller, leichter und stärker ist! Herunterladen und Installierung eines Upgrades hier, wenn Sie nicht so bereits machen!

 

Medium ist eine öffentliche Plattform, wo Leser dynamische Ansichten finden können und wo Experten sowie unentdeckte Stimmen ihre Texte zu jedem Thema veröffentlichen können.
Dieses Tutorial würde Ihnen zeigen, wie die Artikel von Medium extrahiert werden können.

 

 Scraping der Artikel von Medium

 

Die Beispiel-URL in diesem Tutorial ist: https://medium.com/search?q=covid

 

Notiz: Wenn Sie es überprüfen möchten, ob Ihr Workflow richtig funktioniert, können Sie die OTD-Datei der Aufgabe für diesen Fall am Ende dieser Seite herunterladen.

 

Es gibt die hauptsächlichen Schritte des Tutorials:
1. Erstellung von „Go to Web Page“ - um die Ziel-Website zu öffnen
2. Einrichtung der Paginierung - um mehrere Artikel zu scrapen
3. Erstellung von „Loop click“ - um die Artikel anzuklicken
4. Extrahieren der Daten - um die Zieldaten auszuwählen
5. Modifizierung des Xpath für das Datenfeld - um die Elemente exakt für jede detallierte Seite zu lokalisieren
6. Zurück zur vorherigen Seite - um zur Listenseiten zurückzukehren
7. Durchführung der Aufgabe - um die Zieldaten zu bekommen

 

 

1. Erstellung von „Go to Web Page“ - um die Ziel-Website zu öffnen

  • ⭘ Geben Sie die Ziel-URL in die Suchleiste auf dem Startbildschirm ein und dann klicken Sie auf „Start“.

 

 go to web page

 

 

2. Einrichtung der Paginierung - um mehrere Artikel zu scrapen

  • ⭘ Klicken Sie auf „Show more“ Button.
  • ⭘ Klicken Sie auf „Loop click single button“ in den Tipps.

 

 loop click single button

 

  • ⭘ Geben Sie den Xpath für die Paginierung ein, wie z. B. //button[contains(text(),'Show more')]
  • ⭘ Klicken Sie auf „Apply“.

 

 xpath eingeben

 

Richten Sie Scrollen der Seite nach dem Laden neuer Inhalte ein.
  • ⭘ Klicken Sie auf „Click to paginate“ Schritt.
  • ⭘ Klicken Sie auf „Options“.
  • ⭘ Wählen Sie „Scroll down the page after it is loaded“.
  • ⭘ Selektieren Sie „for one screen“ unter dem Scroll.
  • ⭘ Richten Sie die Frequenz des Scrolls als 100 ein.
  • ⭘ Klicken Sie auf „Apply“.

 

 Scrollen der Seite einrichten

 

 

3. Erstellung von „Loop click“ - um die Artikel anzuklicken

  • ⭘ Klicken Sie auf einen Titel.
  • ⭘ Klicken Sie auf „Select All“ in den Tipps, nachdem der Titel grün geworden ist. Dann würde Octoparse alle Titel auswählen.

 

 select all

 

  • ⭘ Klicken Sie auf „Loop click each element“ in den Tipps.

 

 loop click each element

 

Modifizieren Sie die Einstellungen von „Loop Item“.
  • ⭘ Klicken Sie „Loop Item frame“.
  • ⭘ Wählen Sie „Variable List“ als Loop-Modus.
  • ⭘ Geben Sie den entsprechenden Xpath ein: //a[@aria-label="Post Preview Title"]/div/h2.
  • ⭘ Klicken Sie auf „Apply“.

 

 loop mode erstellen und xpath eingeben

 

  • Deaktivieren Sie „Load with AJAX“ für die Klick-Einstellungen.
  • ⭘ Klicken Sie auf „Apply“.

 

 load with AJAX deaktivieren

 

 

4. Extrahieren der Daten - um die Zieldaten auszuwählen

  • ⭘ Klicken Sie auf die gewünschten Daten.

 

 gewünschte Daten wählen

 

  • ⭘ Löschen Sie die nicht gewünschten Daten, indem Sie auf das Symbol vom Löschen klicken.

 

 daten löschen

 

  • ⭘ Klicken Sie auf „Extract data“ aus dem Tipps-Kästchen.

 

 auf Extract data klicken

 

 

  • Deaktivieren Sie „Extract data in the loop“ für die Einstellungen von „Extract Data“.
  • ⭘ Klicken Sie auf „Apply“ zur Speicherung der Einstellungen.

 

 extract data in the loop deaktivieren und speichern

 

  • ⭘ Klicken Sie doppelt auf die Überschrift des Feldes, um es umzubenennen.

 

 Felder umbenennen

 

 

 

5. Modifizierung des Xpath für das Datenfeld - um die Elemente exakt für jede detallierte Seite zu lokalisieren

Der automatisch generierte XPath von Octoparse für die Datenfelder könnte vielleicht nicht für alle Seite funktionieren. Wir können XPath für die Elemente umschreiben, um es sicherzustellen, dass der Xpath für jede Seite geeignet ist.
  • ⭘ Verändern Sie die Datenvorschau in eine vertikale Ansicht.
  • ⭘ Geben Sie Xpath in das folgende Datenfeld ein:
    • ⚬ author: //div[contains(@class,'author')]//a
    • ⚬ published_time: //p[contains(@class,'published-date')]/span
    • ⚬ title: //h1[contains(@class,'post-title')]
    • ⚬ sub_title: //h2[contains(@class,'subtitle')]
    • ⚬ article: //article[@class="meteredContent"]/div

 

 XPath eingeben

 

 

6. Zurück zur vorherigen Seite - um zur Listenseiten zurückzukehren

Die Medium-Website lädt die Artikeldetailseite mit AJAX, so dass die Artikelseite die vorherige Auflistungsseite überdeckt, sobald wir einen Artikel öffnen. In diesem Fall müssen wir einen Schritt hinzufügen, um zurück zur Auflistungsseite zu gelangen.
  • ⭘ Klicken Sie auf „+“ Symbol unter „Extract Data“, um einen Schritt hinzuzufügen.
  • ⭘ Klicken Sie auf „Back to Previous Page“.

 

 Back to Previous Page

 

Der endgültige Workflow sieht wie folgend aus:

 

 endgültiger Workflow

 

 

7. Durchführung der Aufgabe - um die Zieldaten zu bekommen

  • ⭘ Klicken Sie zuerst auf den „Save“ Button zur Speicherung aller Einstellungen, dass Sie gemacht haben.
  • ⭘ Dann klicken Sie auf „Run“, um Ihre Aufgabe lokal oder in der Cloud durchzuführen.

 

 die Einstellungen zur Speicherung

 

  • ⭘ Selektieren Sie „Run on your device“ und danach klicken Sie auf „Run Now“, um die Aufgabe auf Ihrem lokalen Gerät durchzuführen.
  • ⭘ Warten Sie darauf, bis die Aufgabe abgeschlossen ist.

 

 Run on your device

 

Folgend ist eine einfache Liste von durchgeführten Daten aus der lokalen Durchführung. Für den Export stehen die Formate Excel, CSV, HTML und JSON zur Verfügung.

 

 die Liste von durchgeführten Daten

 

 

Tipps: Medium erfordert ein Premium-Konto, um mehr Artikel anzuzeigen. Möglicherweise müssen Sie sich bei Ihrem Konto anmelden, um mehr Daten zu erhalten. Hier ist das zugehörige Tutorial: Daten Scraping nach dem Anmelden.

 

 

 

Autor*in: Das Octoparse Team
Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen