Scraping der Artikel von Medium
Wednesday, August 17, 2022 11:46 AMSie folgen jetzt einem Tutorial für die neueste Version von Octoparse. Wenn Sie zur Zeit eine ältere Version verwenden, empfehlen wir Ihnen kräftig es, ein Upgrade zu machen, weil sie schneller, leichter und stärker ist! Herunterladen und Installierung eines Upgrades hier, wenn Sie nicht so bereits machen!
Notiz: Wenn Sie es überprüfen möchten, ob Ihr Workflow richtig funktioniert, können Sie die OTD-Datei der Aufgabe für diesen Fall am Ende dieser Seite herunterladen.
1. Erstellung von „Go to Web Page“ - um die Ziel-Website zu öffnen
-
⭘ Geben Sie die Ziel-URL in die Suchleiste auf dem Startbildschirm ein und dann klicken Sie auf „Start“.
2. Einrichtung der Paginierung - um mehrere Artikel zu scrapen
-
⭘ Klicken Sie auf „Show more“ Button.
-
⭘ Klicken Sie auf „Loop click single button“ in den Tipps.
-
⭘ Geben Sie den Xpath für die Paginierung ein, wie z. B. //button[contains(text(),'Show more')]
-
⭘ Klicken Sie auf „Apply“.
-
⭘ Klicken Sie auf „Click to paginate“ Schritt.
-
⭘ Klicken Sie auf „Options“.
-
⭘ Wählen Sie „Scroll down the page after it is loaded“.
-
⭘ Selektieren Sie „for one screen“ unter dem Scroll.
-
⭘ Richten Sie die Frequenz des Scrolls als 100 ein.
-
⭘ Klicken Sie auf „Apply“.
3. Erstellung von „Loop click“ - um die Artikel anzuklicken
-
⭘ Klicken Sie auf einen Titel.
-
⭘ Klicken Sie auf „Select All“ in den Tipps, nachdem der Titel grün geworden ist. Dann würde Octoparse alle Titel auswählen.
-
⭘ Klicken Sie auf „Loop click each element“ in den Tipps.
-
⭘ Klicken Sie „Loop Item frame“.
-
⭘ Wählen Sie „Variable List“ als Loop-Modus.
-
⭘ Geben Sie den entsprechenden Xpath ein: //a[@aria-label="Post Preview Title"]/div/h2.
-
⭘ Klicken Sie auf „Apply“.
-
⭘ Deaktivieren Sie „Load with AJAX“ für die Klick-Einstellungen.
-
⭘ Klicken Sie auf „Apply“.
4. Extrahieren der Daten - um die Zieldaten auszuwählen
-
⭘ Klicken Sie auf die gewünschten Daten.
-
⭘ Löschen Sie die nicht gewünschten Daten, indem Sie auf das Symbol vom Löschen klicken.
-
⭘ Klicken Sie auf „Extract data“ aus dem Tipps-Kästchen.
-
⭘ Deaktivieren Sie „Extract data in the loop“ für die Einstellungen von „Extract Data“.
-
⭘ Klicken Sie auf „Apply“ zur Speicherung der Einstellungen.
-
⭘ Klicken Sie doppelt auf die Überschrift des Feldes, um es umzubenennen.
5. Modifizierung des Xpath für das Datenfeld - um die Elemente exakt für jede detallierte Seite zu lokalisieren
-
⭘ Verändern Sie die Datenvorschau in eine vertikale Ansicht.
-
⭘ Geben Sie Xpath in das folgende Datenfeld ein:
-
⚬ author: //div[contains(@class,'author')]//a
-
⚬ published_time: //p[contains(@class,'published-date')]/span
-
⚬ title: //h1[contains(@class,'post-title')]
-
⚬ sub_title: //h2[contains(@class,'subtitle')]
-
⚬ article: //article[@class="meteredContent"]/div
-
6. Zurück zur vorherigen Seite - um zur Listenseiten zurückzukehren
-
⭘ Klicken Sie auf „+“ Symbol unter „Extract Data“, um einen Schritt hinzuzufügen.
-
⭘ Klicken Sie auf „Back to Previous Page“.
7. Durchführung der Aufgabe - um die Zieldaten zu bekommen
-
⭘ Klicken Sie zuerst auf den „Save“ Button zur Speicherung aller Einstellungen, dass Sie gemacht haben.
-
⭘ Dann klicken Sie auf „Run“, um Ihre Aufgabe lokal oder in der Cloud durchzuführen.
-
⭘ Selektieren Sie „Run on your device“ und danach klicken Sie auf „Run Now“, um die Aufgabe auf Ihrem lokalen Gerät durchzuführen.
-
⭘ Warten Sie darauf, bis die Aufgabe abgeschlossen ist.
Tipps: Medium erfordert ein Premium-Konto, um mehr Artikel anzuzeigen. Möglicherweise müssen Sie sich bei Ihrem Konto anmelden, um mehr Daten zu erhalten. Hier ist das zugehörige Tutorial: Daten Scraping nach dem Anmelden.