Scrapen Tweets von Twitter (Version 8)
Monday, June 07, 2021 2:39 PM
Mit Octoparse können Sie ganz einfach beliebige Daten wie Top-Nachrichten, heiße Themen, weltweite Trends usw. von einer Social-Media-Website, wie z. B. Twitter, scrapen.
Mit den gescrapten Daten von Twitter können Sie:
• die weltweit neuesten Trends erfahren
• potenzielle Kunden für Ihr Unternehmen ausfinden
• den Marketingwert von heißen Themen analysieren
Sie können direkt mit der gebrauchsfertigen Twitter-Vorlage beginnen, um Zeit zu sparen. Mit der Vorlage müssen Sie nicht Scraping-Aufgaben selbst konfigurieren. Für weitere Details können Sie hier klicken: Aufgabenvorlagen .
Tipps!
Erfahren Sie mehr über den Octoparse-Daten-Service für die Erfassung großer Datenmengen.
Wenn Sie wissen möchten, wie Sie die Aufgabe selbst erstellen, können Sie das Tutorial weiter lesen oder sich das Video unten ansehen.
Zum Üben verwenden wir diese URL als Beispiel: https://twitter.com/search?q=Latest%20News&src=tyah
Hier sind die wichtigsten Schritte in diesem Tutorial: [Aufgabendatei hier herunterladen]
1. "Go To Web Page" - Öffnen die Ziel-Webseite
2. Erstellen die Aktion "Loop Item" - um Tweets zu extrahieren
3. Erstellen die Aktion "Pagination", um die Webseite nach unten zu scrollen
4. Ändern den "Loop Item XPath" und wählen den Text zu extrahieren
5. Speichern und starten, um die Aufgabe auszuführen und Daten zu erhalten
1. Go to Web Page - Öffnen die Ziel-Webseite
• Geben Sie die URL auf der Startseite ein und klicken Sie auf „Start“
Tipps!
Beachten Sie bitte, dass die Webseite eine Nachrichtenseite von Twitter ist und kein Einloggen erforderlich. Wenn Sie Daten hinter dem Einloggen extrahieren möchten, lesen Sie bitte das folgende Tutorial: Extrahieren Daten hinter einem Einloggen
2. Erstellen die Aktion "Loop Item" - um Tweets zu extrahieren
• Wählen Sie den ersten Tweet auf der Webseite aus (Vergessen Sie nicht, den gesamten Tweet-Block auszuwählen)
• Fahren Sie fort, und wählen den zweiten Tweet aus
• Wählen Sie "Extract text of the selected elements"
3. Erstellen die Aktion "Pagination", um dieWebseite nach unten zu scrollen
• Wählen "Paginate to scrape more pages"
• Wählen einen leeren Bereich auf der Webseite
• Klicken auf "Confirm"
• Klicken auf das Zahnradsymbol der Pagination
• Ändern den XPath der Pagination auf //main und stellen Sie eine geeignete Anzahl für "Repeats" ein - um „Loop“ in einer richtigen Zeit zu beenden
• Klicken auf das Zahnradsymbol der Aktion "Click to Paginate".
• Wählen "Scroll down the page after it is loaded".
• Stellen „Scroll“ als "Scroll for one screen", "Repeats" als 1 und "Wait" als 5s ein
Tipps!
Die Aktion "Paginierung" dient hier nicht wirklich dazu, auf den "Nächste-Seite-Button" zu klicken, um die nächste Seite zu laden, sondern um die Seite nach unten zu scrollen, um weitere Tweets zu laden. Twitter lädt nur die Tweets, die sich auf dem aktuellen Bildschirm befinden, daher müssen wir die Tweets sofort vom aktuellen Bildschirm scrapen, gleich wenn die Seite gescrollt wird, anstatt Tweets nach Beendigung des ganzen Scrollens zu scrapen.
4. Ändern den Loop-Element-XPath und wählen den Text zu scrapen
• Klicken auf das Zahnradsymbol von "Loop Item" und geben Sie den XPath ein: //article[@role="article"]/../../...
• Klicken auf die Aktion "Extract Data" und ein Tweet wird rot hervorgehoben
• Markieren den Text im roten Bereich und wählen "Extract the text"
5. Speichern und starten, um die Aufgabe auszuführen und Daten zu erhalten
• Klicken auf "Save"
• Klicken auf "Run"
• Wählen "Run on your device", um die Aufgabe mit Ihrem lokalen Gerät auszuführen, oder Wählen "Run in the Cloud", um die Aufgabe auf unseren Cloud-Servern auszuführen (nur für Premium-Benutzer)
Sie können die Daten in Formate wie EXCEL, CVS, JSON oder in Ihre Datenbank exportieren.
Hier ist die Beispielausgabe.
Tipps!
Es ist normal, wenn es Duplikate gibt, da jedes Mal, wenn die Seite scrollt, werden nur ein oder zwei neue Tweets geladen.