Alle Kollektionen
Octoparse Performance
Extraktion der Tabellendaten
Extraktion der Tabellendaten
Vor über einer Woche aktualisiert

Tabellendaten sind populär auf Websites über Finanzen und Sport zu finden. Dieses Tutorial erläutert, wie Sie Tabellendaten scrapen können.Wenn Sie schon gelernt, wie eine Liste von Daten gescrapt werden, ist dann das Scrapen der Tabellendaten ähnlich wie das Scrapen einer Liste (Extraktion einer Liste). Sie können jede Zeile der Tabelle als ein Element der Listendaten betrachten. Dann ist jede Tabellenzelle ein Unterelement von dem Element.

Aber wie kann man die Tabellendaten mit Octoparse sammeln? Lesen Sie dieses Tutorial weiter.

Beispiel Webseite


Methode 1 Erstellung des Workflows beim Auto-Detect

Octoparse unterstützt automatisch Datenextraktion der Tabellen und Erfassung aller Spalten. Mit dieser Besonderheit brauchen Sie nur die folgenden Schritte:

  • Schritt 1: Geben Sie die URL der Webseite ein und wählen Sie „Auto-detect the web page data“.

  • Schritt 2: Überprüfen Sie, ob alle Tabellenzelle erfasst wurden. Dann klicken Sie auf „Create workflow“.

Create workflow

Tipps!

Klicken Sie auf Lektion 1: Datenextraktion mit brandneuem Auto-Detect-Algorithmus für Einzelheiten über Auto-Detect.


Methode 2 Erstellung des Workflows manuell

Wenn die automatische Detektion fehlschlägt oder nicht die kompletten Tabellendaten sammelt, müssen Sie dann den Workflow manuell einrichten. Hier sind die Schritte:

  • Schritt 1: Wählen Sie die erste Zelle in der ersten Zeile der Tabelle aus und klicken Sie dann auf den folgenden Button „Expand the selection area“, bis die gesamte erste Zeile ausgewählt wird.

icon

(Sie können auf „Turn OFF Auto-detect“ oder „Cancel Auto-detect“ klicken, um die automatische Erfassung zu stoppen, wenn sie automatisch startet.)

Turn OFF Auto-detect

In „Tips“ wird die Meldung „One or more sub-elements are found“ angezeigt. „Sub-elements“ sind die spezifischen Datenfelder, die Octoparse in jeder Datenzeile erkennt. Mit der fragt Octoparse Sie, ob Sie diese Unterelemente lokalisieren möchten.

One or more sub-elements are found

  • Schritt 2: Wählen Sie „Select all sub-elements“ in der Tipps-Platte.

Alle Unterelemente in der 1. Zeile werden ausgewählt, und dann findet Octoparse weitere ähnliche Elemente, die rot hervorgehoben werden.

Select all sub-elements

  • Schritt 3: Wählen Sie „Select all“ in der Tipps-Platte.

Alle Unterelemente in der Tabelle werden ausgewählt und ebenfalls grün hervorgehoben.

Select all

  • Schritt 4: Wählen Sie „Extract data“ in der Tipps-Platte.

Nun könnte Octoparse alle Datenfelder der Tabelle scrapen.

Extract data

  • Schritt 5: Löschen Sie die Felder, wenn es nötig ist. (optional)

Sie haben jetzt alle Datenfelder, die für die Aufgabe erstellt werden. Sie können die Datenfelder in der „Data Preview“ verfeinern.

Prozess 1: Klicken Sie doppelt auf den Feldnamen, um die Datenfelder umzubenennen.

Prozess 2: Klicken Sie auf den folgenden Button im Feld für mehrere Aktionen: Löschenm, Kopieren, Reinigung der Daten usw.

button
Data Preview

Hat dies Ihre Frage beantwortet?