Extraktion einer Liste
Thursday, June 23, 2022 2:44 PMInhalte auf Webseiten sind normalerweise in einigen Arten durch Mustern organisiert. Und eines der am häufigsten gesehenen Muster ist eine Liste. Hier sind ein paar Beispiele dafür, wie Inhalte als Liste organisiert werden.
Man kann einfach mit der Auto-Detect-Funktion von Octoparse, um eine Liste zu scrapen, indem Octoparse die Elemente einer Liste automatisch erkennt und den Workflow automatisch generiert. Mit Auto-Detect-Funktion von Octoparse könnte das Daten Scraping einer Liste nihct leichter werden. Schauen wir uns jetzt ein Beispiel an.
Diese besondere Webseite enthält die Items, welche die gleiche Struktur haben. Jedes Item umfasst einen Titel, ein Datum, die Schlüsselwörter und Inhalte...

Unser Ziel ist es, Daten zu scrapen und sie in Excel umzuwandeln, wie folgend:

Nun lassen wir verschiedene Möglichkeiten finden, um das Ziel in Octoparse zu verwirklichen.
Möglichkeit 1 Extraktion der Liste mit Auto-Detect
Möglichkeit 2 Extraktion der Liste manuell
Vielleicht brauchen Sie diesen Link zu probieren: https://www.octoparse.com/blog
Möglichkeit 1 Extraktion der Liste mit Auto-Detect
Nachdem Sie eine neue Aufgabe mit der Beispiel-URL erstellt haben, wählen Sie „Auto-detect web page data“. Octoparse erkennt nun alle Daten auf der Seite, dann klicken Sie auf „Create workflow“, um den Workflow zu generieren.

Möglichkeit 2 Extraktion der Liste manuell
Wenn die automatische Detektion die Liste nicht erkennt oder wenn Sie eine Aufgabe selbst erstellen möchten, können Sie die Liste immer manuell extrahieren.
Methode 1
Schritt 1: Laden Sie die Webseite in Octoparse, bewegen Sie den Mauszeiger über das erste Item, bis der gesamte Abschnitt blau hervorgehoben wird.
Schritt 2: Gehen Sie weiter, um auf das zweite Item zu klicken. Danach würden alle gewünschten Elemente auf eine Seite ausgewählt.
Schritt 3: Wählen Sie „Extract text of the selected elements“ aus und dann würde Octoparse ein Loop Item automatisch erstellen.

Sie würden beobachten, dass das erste Item nun rot hervorgehoben wird. In diesem Schritt können Sie die Information selektieren, die Sie brauchen, z.B. Titel, Datum und Schlüsselwort aus dem hervorgehobenen Bereich.
Schritt 4: Wählen Sie den Titel und dann „Extract the text of the element“
Schritt 5: Wiederholen Sie diese Schritte, um weitere Information zu erhalten.
Schritt 6: Klicken Sie doppelt auf den Feldernamen, um ihn umzubenennen, wenn es nötig ist.

Methode 2
Schritt 1: Bewegen Sie den Mauszeiger über das erste Item, bis der gesamte Abschnitt blau hervorgehoben wird.
Sie würden beobachten, dass Octoparse die Unterelemente aus dem Abschnitt erkennt und sie rot hervorhebt.
Schritt 2: Wählen Sie „Select sub-elements“.
Schritt 3: Wählen Sie „Select all“.
Schritt 4: Wählen Sie „Extract data“. Ein Loop Item würde automatisch generiert, um die Items auf der Seite zu scrapen.

Tipps!
Wenn Sie die extrahierten Datenfelder bearbeiten oder löschen möchten, können Sie auf „Extract Data“ klicken und sie auf der Platte von Datenvorschau modifizieren.

Wenn Sie Probleme bei der Datenextraktion haben, oder uns etwas Vorschlägen geben möchten, reichen Sie bitte uns eine Anfrage ein. Erfüllen Sie eine Anfrage hier. Oder Sie können durch E-Mail (support@octoparse.com) uns kontaktieren.
Autor*in: Das Octoparse Team