6 einfache Wege zur Extraktion von Tabellendaten

Auf Websites werden viele Daten in einem Tabellenformat dargestellt. Es könnten jedoch zu einer schwierigen Aufgabe kommen, die Tabelledaten auf einem lokalen Computer zu speichern. Das Problem ist, dass die Daten in HTML eingebettet sind und nicht in einem strukturierten Format wie CSV heruntergeladen werden können. In diesem Fall ist Web Scraping der einfachste Weg, um die Daten zu erhalten.

Hier möchte ich Ihnen 6 Methoden vorstellen, damit Sie die Daten aus einer Tabelle einfach und schnell scrapen können.

6 einfache Möglichkeiten, Daten aus einer Tabelle zu extrahieren

Tabellendaten ohne Codierung scrapen

Octoparse ist ein leistungsfähiges AI-Web-Scraping-Tool, mit dem Sie in kurzer Zeit Daten in großem Umfang extrahieren können. Octoparse ist einfach zu bedienen. Durch Ziehen und Ablegen können Sie ganz einfach einen Arbeitsablauf erstellen, der die benötigten Informationen von jeder beliebigen Website abruft.

Gelbe Seiten Web Scraping – Automatische Dedektion

Die Schritte zum Daten Scraping mit Octoparse sehen Sie darunter nach.

✅ Schritt 1: Klicken Sie auf “Neu”, um ein neues Projekt zu starten.

✅ Schritt 2: Geben Sie die Ziel-URL in das Feld ein und klicken Sie auf “Starten”, um die Website im integrierten Octoparse-Browser zu öffnen.

✅ Schritt 3: Erstellen Sie das Umblättern mit 3 Klicks:

Klicken Sie auf “B” im Browser
Klicken Sie in “Tipps” auf “Daten der Webseite automatisch detektieren”.
Klicken Sie auf “Schleifenklick auf jede URL“ in “Aktionstipps”.

Jetzt können wir sehen, dass ein “Paginierungsschleife“ in der Workflow-Box erstellt wurde.

✅ Schritt 4: Konfigurieren Sie die Aufgabe

Klicken Sie auf die erste Zelle in der ersten Zeile der Tabelle
Klicken Sie auf das Erweiterungssymbol in “Tipps”, bis die gesamte Zeile grün hervorgehoben ist (normalerweise sollte das Tag TR sein).
Klicken Sie auf “Alle Unterelemente auswählen” in “Tipps”, dann auf “Daten extrahieren“ und “Daten in der Schleife extrahieren”.

Die Schleife für das Scraping der Tabelle ist in den Workflow integriert.

✅ Schritt 5: Extrahieren und expotieren Sie die Daten

Mit den oben genannten 5 Schritten erhalten wir das folgende Ergebnis.

Mit Octoparse stehen Ihnen über 500 benutzerfreundliche Vorlagen zur Verfügung, um Daten schnell und einfach zu extrahieren. Darüber hinaus ermöglicht Ihnen die Octoparse-Vorlage die gezielte Extraktion der gewünschten Daten auf einfache Weise. Die Benutzerfreundlichkeit der Octoparse-Vorlage ist besonders hervorzuheben!
https://www.octoparse.de/template/gelbe-seiten-scraper

Octoparse: Einfaches Web Scraping Tool für jede

Kostenloser Download

Anmeldung

Konvertiere Website-Daten direkt in Excel, CSV, Google Sheets und Ihre Datenbank.

Scrape Daten einfach mit Auto-Dedektion, ganz ohne Coding.

Scraping-Vorlagen für beliebte Websites, um Daten mit wenigen Klicks zu erhalten.

Mit IP-Proxys und fortschrittlicher API wird nie blockiert.

Cloud-Dienst zur Planung von Datenabfragen zu jedem gewünschten Zeitpunkt.

Website-APIs nutzen

Viele große Websites wie Amazon, Google Maps, Twitter und StackOverflow stellen APIs bereit, über die Benutzer auf ihre Daten zugreifen können. Manchmal können Sie offizielle APIs auswählen, um strukturierte Daten zu erhalten. Wie die Facebook Graph API unten zeigt, müssen Sie Felder auswählen, die Abfrage durchführen, dann die Daten sortieren, die URL-Suche durchführen, Abfragen durchführen usw. Weitere Informationen finden Sie unter https://developers.facebook.com/docs/graph-api/?translation.

Die Vorteile der Verwendung von Website-APIs liegen auf der Hand: Die Daten sind hundertprozentig genau; wir können sie automatisch in Echtzeit erhalten; Durch die Flexibilität können diese Daten problemlos in anderen oder anderen Anwendungen verwendet werden.

Beachten Sie jedoch, dass nicht alle APIs kostenlos sind und für manche möglicherweise eine Anrufratenbegrenzung gilt. Dies bedeutet, dass Sie pro Zeitraum nur eine bestimmte Datenmenge abrufen können. Darüber hinaus ermöglichen APIs häufig den Zugriff auf einen Teil der Daten einer Website. Ganz zu schweigen davon, dass einige Websites sich aufgrund technischer Einschränkungen oder anderer Gründe weigern, öffentliche APIs bereitzustellen.

Wir müssen also noch andere Lösungen finden, um sie zu ergänzen.

Google Sheets

In Google Sheets gibt es eine Funktion namens Import Html, mit der Daten aus einer Tabelle innerhalb einer HTML-Seite mit einem festen Ausdruck =ImportHtml (URL, “table”, num) extrahiert werden können.

✅ Schritt 1: Öffnen Sie ein neues Google Tabelle, und geben Sie den Ausdruck in ein leeres Feld ein. Es wird eine kurze Einführung in die Formel angezeigt.

✅ Schritt 2: Geben Sie die URL ein (Beispiel: https://en.wikipedia.org/wiki/Forbes%27_list_of_the_world%27s_highest-paid_athletes) und passen Sie das Indexfeld nach Bedarf an.

Mit den oben genannten 2 Schritten können wir die Daten aus einer Tabelle innerhalb von Minuten mit Google Tabelle scrapen. Allerdings gibt es eine offensichtliche Einschränkung. Wir müssen den Prozess mehrmals wiederholen, wenn wir planen, Tabellen von mehrere Seiten mit Google Tabelle zu scrapen. Daher brauchen Sie eine effizientere Methode, um den Prozess zu automatisieren.

Oder Excel bietet die Möglichkeit, Daten aus Websites über Power Query zu extrahieren.

Sprache R (mit rvest-Paket)

In diesem Fall verwende ich auch diese Website (https://de.investing.com/currencies/single-currency-crosses) als Beispiel, um zu zeigen, wie man Tabellen mit rvest scrapen kann.

Bevor wir mit dem Schreiben des Codes beginnen, müssen wir einige grundlegende Grammatiken über das rvest-Paket kennen.

html_nodes() : Auswahl eines bestimmten Teils in einem bestimmten Dokument. Wir können CSS-Selektoren verwenden, wie html_nodes(doc, “table td”), oder xpath-Selektoren, html_nodes(doc, xpath = “//table//td”)
html_tag() : Extrahiert den Tag-Namen. Einige ähnliche sind html_text (), html_attr() und html_attrs()
html_table() : Parsen HTML-Tabellen und extrahieren die in R Framework.

Darüber hinaus gibt es noch einige Funktionen zur Simulation des menschlichen Surfverhaltens. Zum Beispiel html_session(), jump_to(), follow_link(), back(), forward(), submit_form() und so weiter.

In diesem Fall müssen wir html_table() verwenden, um unser Ziel zu erreichen, also Daten aus einer Tabelle auszulesen.

Laden Sie zunächst R(https://cran.r-project.org/) herunter.

✅ Schritt 1: Installieren Sie rvest.

✅ Schritt 2: Beginnen Sie mit dem Schreiben von Codes, wie in der folgenden Abbildung gezeigt.

Library(rvest) : Importieren Sie das rvest-Paket
Library(magrittr) : Importieren Sie das Paket magrittr
URL: Die Ziel-URL
Read HTML : Zugriff auf die Informationen der Ziel-URL
List: Lesen die Daten aus der Tabelle

✅ Schritt 3: Nachdem Sie den gesamten Code in das R-Penal geschrieben haben, klicken Sie auf “Enter”, um das Skript auszuführen. Jetzt können wir die Tabelleninformationen sofort erhalten.

Für die Menschen, die keine Programmierkenntnisse haben, ist die Programmierung mit einer steilen Lernkurve verbunden, die die Schwelle für den Einstieg in das Web Scraping erhöht. Es erschwert diese Menschen, einen Wettbewerbsvorteil bei der Nutzung von Webdaten zu erlangen.

Browser-Erweiterungen

Ein Browser-Plugin, das hilft, Daten aus Tabellen zu extrahieren, ohne Code zu schreiben. Praktisch für einmalige Extraktionen.

Mit Data Miner können Benutzer ganz einfach die benötigten Informationen extrahieren, indem sie einfach die relevanten Tabellenelemente auswählen. Das Plugin bietet eine intuitive Benutzeroberfläche, die es ermöglicht, Daten in verschiedenen Formaten zu speichern, sei es CSV, Excel oder JSON. Es ist ideal für Forscher, Journalisten oder jeden, der schnell auf Informationen zugreifen möchte, ohne sich in komplizierte Programmiersprachen einarbeiten zu müssen.

Darüber hinaus bietet Data Miner die Möglichkeit, wiederkehrende Extraktionen zu automatisieren. Mit wenigen Klicks können Nutzer regelmäßig aktualisierte Daten abrufen, was besonders nützlich für Marktanalysen und Wettbewerbsbeobachtungen ist. Die Anpassungsfähigkeit des Tools macht es zu einem unverzichtbaren Helfer für alle, die regelmäßig mit Daten arbeiten.

Ein weiteres Highlight ist die umfangreiche Bibliothek von Vorlagen, die speziell für häufig genutzte Webseiten entwickelt wurden. Benutzer können problemlos eine bestehende Vorlage auswählen und anpassen oder ihre eigenen erstellen. Dies spart Zeit und Aufwand und ermöglicht einen schnellen Zugriff auf relevante Daten.

Egal, ob Sie eine einmalige Recherche durchführen oder über einen längeren Zeitraum Daten sammeln möchten, Data Miner vereinfacht den Prozess und macht das Extrahieren von Informationen so einfach wie nie zuvor.

Mit Python Tabellen von der Website extrahieren

Python ist eine weit verbreitete Programmiersprache auf höherer Ebene für allgemeine Programmierung und Datenscraping. Als interpretierte Sprache hat Python eine Designphilosophie, die die Lesbarkeit des Codes betont, und eine Syntax, die es Programmierern ermöglicht, Konzepte in weniger Codezeilen auszudrücken, als dies in Sprachen wie C++ oder Java möglich wäre. Die Verwendung von Python zum Scrapen von Daten aus einer Tabelle/einem Formular ist eine gute Methode, wenn Sie Programmierer sind oder gut im Coden sind.

Es scheint, dass die Verwendung eines Web Scraping-Tools nicht weniger Aufwand erfordert als das Schreiben einiger Codezeilen zum Extrahieren von Tabellendaten. Tatsächlich ist die Lernkurve beim Programmieren steil, was die Hemmschwelle für Leute, die sich mit der wahren Macht des Web Scrapings beschäftigen, im Allgemeinen erhöht. Diese Situation macht es für Leute, die nicht in der Technologiebranche arbeiten, schwieriger, einen Wettbewerbsvorteil bei der Nutzung von Webdaten zu erlangen.

Zusammenfassung

Ich hoffe, die obigen Tutorials geben Ihnen einen allgemeinen Überblick über das Scraping von Tabellendaten von einer Website. Wählen Sie die für Sie am besten geeignete Methode, egal ob Sie programmieren oder nicht. Und Octoparse ist die beste Wahl, wenn Sie keine Ahnung vom Programmieren haben oder beim Scraping von Daten Zeit sparen möchten.

Wenn Sie Probleme bei der Datenextraktion haben, oder uns etwas Vorschlägen geben möchten, kontaktieren Sie bitte uns per E-Mail (support@octoparse.com). 💬

👍👍 Wenn Sie Interesse an Octoparse und Web Scraping haben, können Sie es zunächst 14 Tage lang kostenlos ausprobieren.