Extraktion einer Liste
Vor über einer Woche aktualisiert

Inhalte auf Webseiten sind normalerweise in einigen Arten durch Mustern organisiert. Und eines der am häufigsten gesehenen Muster ist eine Liste. Hier sind ein paar Beispiele dafür, wie Inhalte als Liste organisiert werden.

Man kann einfach mit der Automatischen Detektionserfassung von Octoparse, um eine Liste zu scrapen, indem Octoparse die Elemente einer Liste automatisch erkennt und den Workflow automatisch generiert. Mit Automatischer Detektionserfassung von Octoparse könnte das Daten Scraping einer Liste nicht leichter werden. Schauen wir uns jetzt ein Beispiel an.

Diese besondere Webseite enthält die Items, welche die gleiche Struktur haben. Jedes Item umfasst einen Titel, ein Datum, die Schlüsselwörter und Inhalte...

Unser Ziel ist es, Daten zu scrapen und sie in Excel umzuwandeln, wie folgend:

Nun lassen wir verschiedene Möglichkeiten finden, um das Ziel-Output in Octoparse zu bekommen.

Vielleicht brauchen Sie diesen Link zu probieren: https://www.octoparse.de/blog


Möglichkeit 1: Automatische Extraktion der Liste mit Auto-Detektion

Nachdem Sie eine neue Aufgabe mit der Beispiel-URL erstellt haben, wählen Sie „Daten der Webseite automatisch detektieren“. Octoparse erkennt nun alle Daten auf der Seite, dann klicken Sie auf „Workflow erstellen“, um den Workflow zu generieren.

Nach dieser Funktion können Sie die Felder in der Datenvorschau modifizieren.

  • Löschen Sie die ungewünschten Datenfelder.

  • Benennen Sie die Felder durch Doppelklick auf die Überschrift um.


Möglichkeit 2: Manuelle Extraktion der Liste

Wenn die automatische Detektion aus einigen Gründen die Liste nicht erkennt oder wenn Sie eine Aufgabe selbst erstellen möchten, können Sie den Prozess immer manuell anpassen und die Liste manuell auslesen.

Methode 1

  • Schritt 1: Laden Sie die Webseite in Octoparse, bewegen Sie den Mauszeiger über das erste Item, bis der gesamte Abschnitt blau hervorgehoben wird.

  • Schritt 2: Gehen Sie weiter, um auf das zweite Item zu klicken. Danach würden alle gewünschten Elemente auf eine Seite ausgewählt.

  • Schritt 3: Wählen Sie „Text“ unter „Daten extrahieren“ aus und dann würde Octoparse automatisch ein Schleifenelement erstellen.

Sie können jetzt die Informationen wie Titel, Daten und Schlüsselwörter aus diese Webseite selektieren, um verschiedene Felder zu scrapen.

  • Schritt 4: Wiederholen Sie diese Schritte, um weitere Information zu erhalten.

  • Schritt 5: Klicken Sie doppelt auf den Feldernamen, umzubenennen, wenn benötigt.

Methode 2

  • Schritt 1: Bewegen Sie den Mauszeiger über das erste Item, bis der gesamte Abschnitt blau hervorgehoben wird.

Sie würden beobachten, dass Octoparse die Unterelemente aus dem Abschnitt erkennt und sie rot hervorhebt.

  • Schritt 2: Wählen Sie „Alle ähnlichen Elemente wählen“.

  • Schritt 3: Wählen Sie „Text“ unter „Daten extrahieren“. Eine Schleife würde automatisch generiert, um die Items auf der Seite zu scrapen.

Hat dies Ihre Frage beantwortet?