Extraktion der Tabellendaten
Thursday, June 23, 2022 2:49 PMTabellendaten sind populär auf Websites über Finanzen und Sport zu finden. Dieses Tutorial erläutert, wie Sie Tabellendaten scrapen können.Wenn Sie schon gelernt, wie eine Liste von Daten gescrapt werden, ist dann das Scrapen der Tabellendaten ähnlich wie das Scrapen einer Liste (Extraktion einer Liste). Sie können jede Zeile der Tabelle als ein Element der Listendaten betrachten. Dann ist jede Tabellenzelle ein Unterelement von dem Element.
Aber wie kann man die Tabellendaten mit Octoparse sammeln? Lesen Sie dieses Tutorial weiter.
Beispiel URL: https://money.cnn.com/data/hotstocks/index.html

Übersicht
Methode 1 Erstellung des Workflows beim Auto-Detect
Octoparse unterstützt automatisch Datenextraktion der Tabellen und Erfassung aller Spalten. Mit dieser Besonderheit brauchen Sie nur die folgenden Schritte:
Schritt 1: Geben Sie die URL der Webseite ein und wählen Sie „Auto-detect the web page data“.
Schritt 2: Überprüfen Sie, ob alle Tabellenzelle erfasst wurden. Dann klicken Sie auf „Create workflow“.

Tipps!
Klicken Sie auf Lektion 1: Datenextraktion mit brandneuem Auto-Detect-Algorithmus für Einzelheiten über Auto-Detect.
Methode 2 Erstellung des Workflows manuell
Wenn die automatische Detektion fehlschlägt oder nicht die kompletten Tabellendaten sammelt, müssen Sie dann den Workflow manuell einrichten. Hier sind die Schritte:
Schritt 1: Wählen Sie die erste Zelle in der ersten Zeile der Tabelle aus und klicken Sie dann auf
(Button „Expand the selection area“), bis die gesamte erste Zeile ausgewählt wird.

(Sie können auf „Turn OFF Auto-detect“ oder „Cancel Auto-detect“ klicken, um die automatische Erfassung zu stoppen, wenn sie automatisch startet.)

In „Tips“ wird die Meldung „One or more sub-elements are found“ angezeigt. „Sub-elements“ sind die spezifischen Datenfelder, die Octoparse in jeder Datenzeile erkennt. Mit der fragt Octoparse Sie, ob Sie diese Unterelemente lokalisieren möchten.

Schritt 2: Wählen Sie „Select all sub-elements“ in der Tipps-Platte.
Alle Unterelemente in der 1. Zeile werden ausgewählt, und dann findet Octoparse weitere ähnliche Elemente, die rot hervorgehoben werden.

Schritt 3: Wählen Sie „Select all“ in der Tipps-Platte.
Alle Unterelemente in der Tabelle werden ausgewählt und ebenfalls grün hervorgehoben.

Schritt 4: Wählen Sie „Extract data“ in der Tipps-Platte.
Nun könnte Octoparse alle Datenfelder der Tabelle scrapen.

Schritt 5: Löschen Sie die Felder, wenn es nötig ist. (optional)
Sie haben jetzt alle Datenfelder, die für die Aufgabe erstellt werden. Sie können die Datenfelder in der „Data Preview“ verfeinern.
Prozess 1: Klicken Sie doppelt auf den Feldnamen, um die Datenfelder umzubenennen.
Prozess 2: Klicken Sie auf
im Feld für mehrere Aktionen: Löschenm, Kopieren, Reinigung der Daten usw.


Wenn Sie Probleme bei der Datenextraktion haben, oder uns etwas Vorschlägen geben möchten, reichen Sie bitte uns eine Anfrage ein. Erfüllen Sie eine Anfrage hier. Oder Sie können durch E-Mail (support@octoparse.com) uns kontaktieren.
Autor*in: Das Octoparse Team