Auf Websites werden viele Daten in einem Tabellenformat dargestellt. Es könnten jedoch zu einer schwierigen Aufgabe kommen, die Tabelledaten auf einem lokalen Computer zu speichern. Das Problem ist, dass die Daten in HTML eingebettet sind und nicht in einem strukturierten Format wie CSV heruntergeladen werden können. In diesem Fall ist Web Scraping der einfachste Weg, um die Daten zu erhalten.
Hier möchte ich Ihnen 5 Methoden vorstellen, damit Sie die Daten aus einer Tabelle einfach und schnell scrapen können.
Octoparse
Octoparse ist ein leistungsfähiges AI-Web-Scraping-Tool, mit dem Sie in kurzer Zeit Daten in großem Umfang extrahieren können. Octoparse ist einfach zu bedienen. Durch Ziehen und Ablegen können Sie ganz einfach einen Arbeitsablauf erstellen, der die benötigten Informationen von jeder beliebigen Website abruft.
Die Schritte zum Daten Scraping mit Octoparse sehen Sie darunter nach.
✅ Schritt 1: Klicken Sie auf “Neu”, um ein neues Projekt zu starten.
✅ Schritt 2: Geben Sie die Ziel-URL in das Feld ein und klicken Sie auf “Starten”, um die Website im integrierten Octoparse-Browser zu öffnen.
✅ Schritt 3: Erstellen Sie das Umblättern mit 3 Klicks:
- Klicken Sie auf “B” im Browser
- Klicken Sie in “Tipps” auf “Daten der Webseite automatisch detektieren”.
- Klicken Sie auf “Schleifenklick auf jede URL“ in “Aktionstipps”.
Jetzt können wir sehen, dass ein “Paginierungsschleife“ in der Workflow-Box erstellt wurde.
✅ Schritt 4: Konfigurieren Sie die Aufgabe
- Klicken Sie auf die erste Zelle in der ersten Zeile der Tabelle
- Klicken Sie auf das Erweiterungssymbol in “Tipps”, bis die gesamte Zeile grün hervorgehoben ist (normalerweise sollte das Tag TR sein).
- Klicken Sie auf “Alle Unterelemente auswählen” in “Tipps”, dann auf “Daten extrahieren“ und “Daten in der Schleife extrahieren”.
Die Schleife für das Scraping der Tabelle ist in den Workflow integriert.
✅ Schritt 5: Extrahieren und expotieren Sie die Daten
Mit den oben genannten 5 Schritten erhalten wir das folgende Ergebnis.
Mit Octoparse stehen Ihnen über 100 benutzerfreundliche Vorlagen zur Verfügung, um Daten schnell und einfach zu extrahieren. Darüber hinaus ermöglicht Ihnen die Octoparse-Vorlage die gezielte Extraktion der gewünschten Daten auf einfache Weise. Die Benutzerfreundlichkeit der Octoparse-Vorlage ist besonders hervorzuheben!
https://www.octoparse.de/template/email-social-media-scraper
Hier bekommen Sie Octoparse! 🤩
Preis: $0~$249 pro Monat
Packet & Preise: Octoparse Premium-Preise & Verpackung
Kostenlose Testversion: 14-tägige kostenlose Testversion
Herunterladen: Octoparse für Windows und MacOs
Google Sheets
In Google Sheets gibt es eine Funktion namens Import Html, mit der Daten aus einer Tabelle innerhalb einer HTML-Seite mit einem festen Ausdruck =ImportHtml (URL, “table”, num) extrahiert werden können.
✅ Schritt 1: Öffnen Sie ein neues Google Tabelle, und geben Sie den Ausdruck in ein leeres Feld ein. Es wird eine kurze Einführung in die Formel angezeigt.
✅ Schritt 2: Geben Sie die URL ein (Beispiel: https://en.wikipedia.org/wiki/Forbes%27_list_of_the_world%27s_highest-paid_athletes) und passen Sie das Indexfeld nach Bedarf an.
Mit den oben genannten 2 Schritten können wir die Daten aus einer Tabelle innerhalb von Minuten mit Google Tabelle scrapen. Allerdings gibt es eine offensichtliche Einschränkung. Wir müssen den Prozess mehrmals wiederholen, wenn wir planen, Tabellen von mehrere Seiten mit Google Tabelle zu scrapen. Daher brauchen Sie eine effizientere Methode, um den Prozess zu automatisieren.
Oder Excel bietet die Möglichkeit, Daten aus Websites über Power Query zu extrahieren.
Sprache R (mit rvest-Paket)
In diesem Fall verwende ich auch diese Website (https://de.investing.com/currencies/single-currency-crosses) als Beispiel, um zu zeigen, wie man Tabellen mit rvest scrapen kann.
Bevor wir mit dem Schreiben des Codes beginnen, müssen wir einige grundlegende Grammatiken über das rvest-Paket kennen.
- html_nodes() : Auswahl eines bestimmten Teils in einem bestimmten Dokument. Wir können CSS-Selektoren verwenden, wie html_nodes(doc, “table td”), oder xpath-Selektoren, html_nodes(doc, xpath = “//table//td”)
- html_tag() : Extrahiert den Tag-Namen. Einige ähnliche sind html_text (), html_attr() und html_attrs()
- html_table() : Parsen HTML-Tabellen und extrahieren die in R Framework.
Darüber hinaus gibt es noch einige Funktionen zur Simulation des menschlichen Surfverhaltens. Zum Beispiel html_session(), jump_to(), follow_link(), back(), forward(), submit_form() und so weiter.
In diesem Fall müssen wir html_table() verwenden, um unser Ziel zu erreichen, also Daten aus einer Tabelle auszulesen.
Laden Sie zunächst R(https://cran.r-project.org/) herunter.
✅ Schritt 1: Installieren Sie rvest.
✅ Schritt 2: Beginnen Sie mit dem Schreiben von Codes, wie in der folgenden Abbildung gezeigt.
- Library(rvest) : Importieren Sie das rvest-Paket
- Library(magrittr) : Importieren Sie das Paket magrittr
- URL: Die Ziel-URL
- Read HTML : Zugriff auf die Informationen der Ziel-URL
- List: Lesen die Daten aus der Tabelle
✅ Schritt 3: Nachdem Sie den gesamten Code in das R-Penal geschrieben haben, klicken Sie auf “Enter”, um das Skript auszuführen. Jetzt können wir die Tabelleninformationen sofort erhalten.
Für die Menschen, die keine Programmierkenntnisse haben, ist die Programmierung mit einer steilen Lernkurve verbunden, die die Schwelle für den Einstieg in das Web Scraping erhöht. Es erschwert diese Menschen, einen Wettbewerbsvorteil bei der Nutzung von Webdaten zu erlangen.
Browser-Erweiterungen
Ein Browser-Plugin, das hilft, Daten aus Tabellen zu extrahieren, ohne Code zu schreiben. Praktisch für einmalige Extraktionen.
Mit Data Miner können Benutzer ganz einfach die benötigten Informationen extrahieren, indem sie einfach die relevanten Tabellenelemente auswählen. Das Plugin bietet eine intuitive Benutzeroberfläche, die es ermöglicht, Daten in verschiedenen Formaten zu speichern, sei es CSV, Excel oder JSON. Es ist ideal für Forscher, Journalisten oder jeden, der schnell auf Informationen zugreifen möchte, ohne sich in komplizierte Programmiersprachen einarbeiten zu müssen.
Darüber hinaus bietet Data Miner die Möglichkeit, wiederkehrende Extraktionen zu automatisieren. Mit wenigen Klicks können Nutzer regelmäßig aktualisierte Daten abrufen, was besonders nützlich für Marktanalysen und Wettbewerbsbeobachtungen ist. Die Anpassungsfähigkeit des Tools macht es zu einem unverzichtbaren Helfer für alle, die regelmäßig mit Daten arbeiten.
Ein weiteres Highlight ist die umfangreiche Bibliothek von Vorlagen, die speziell für häufig genutzte Webseiten entwickelt wurden. Benutzer können problemlos eine bestehende Vorlage auswählen und anpassen oder ihre eigenen erstellen. Dies spart Zeit und Aufwand und ermöglicht einen schnellen Zugriff auf relevante Daten.
Egal, ob Sie eine einmalige Recherche durchführen oder über einen längeren Zeitraum Daten sammeln möchten, Data Miner vereinfacht den Prozess und macht das Extrahieren von Informationen so einfach wie nie zuvor.
Zusammenfassung
Dieser Artikel beschreibt drei Methoden, um Daten aus Webformularen zu extrahieren: Octoparse, die Funktion ImportHtml von Google Sheets und das rvest-Paket für die Sprache R. Der Artikel beschreibt die Schritte jeder Methode für Benutzer mit unterschiedlichen Kenntnissen, um einfach und effizient Daten aus Webseiten zu extrahieren.
Ich hoffe, dass das obige Tutorial Ihnen hilft, eine allgemeine Vorstellung davon zu bekommen, wie ein Web Scraping Tool Ihnen helfen kann, das gleiche Ergebnis wie ein Programmierer mühelos zu erreichen.
Wenn Sie Probleme bei der Datenextraktion haben, oder uns etwas Vorschlägen geben möchten, kontaktieren Sie bitte uns per E-Mail (support@octoparse.com). 💬
👍👍 Wenn Sie Interesse an Octoparse und Web Scraping haben, können Sie es zunächst 14 Tage lang kostenlos ausprobieren.
Autor*in: Das Octoparse Team ❤️
Konvertiere Website-Daten direkt in Excel, CSV, Google Sheets und Ihre Datenbank.
Scrape Daten einfach mit Auto-Dedektion, ganz ohne Coding.
Scraping-Vorlagen für beliebte Websites, um Daten mit wenigen Klicks zu erhalten.
Mit IP-Proxys und fortschrittlicher API wird nie blockiert.
Cloud-Dienst zur Planung von Datenabfragen zu jedem gewünschten Zeitpunkt.