undefined

Extraktion einer Liste

Thursday, June 23, 2022 2:44 PM
Inhalte auf Webseiten sind normalerweise in einigen Arten durch Mustern organisiert. Und eines der am häufigsten gesehenen Muster ist eine Liste. Hier sind ein paar Beispiele dafür, wie Inhalte als Liste organisiert werden.

 

List daten beispiel

 

 

Man kann einfach mit der Auto-Detect-Funktion von Octoparse, um eine Liste zu scrapen, indem Octoparse die Elemente einer Liste automatisch erkennt und den Workflow automatisch generiert. Mit Auto-Detect-Funktion von Octoparse könnte das Daten Scraping einer Liste nihct leichter werden. Schauen wir uns jetzt ein Beispiel an.
Diese besondere Webseite enthält die Items, welche die gleiche Struktur haben. Jedes Item umfasst einen Titel, ein Datum, die Schlüsselwörter und Inhalte...

 

List Daten beispiel

 

Unser Ziel ist es, Daten zu scrapen und sie in Excel umzuwandeln, wie folgend:

 

Daten Ausgabe

 

Nun lassen wir verschiedene Möglichkeiten finden, um das Ziel in Octoparse zu verwirklichen.
Möglichkeit 1 Extraktion der Liste mit Auto-Detect
Möglichkeit 2 Extraktion der Liste manuell

 

Vielleicht brauchen Sie diesen Link zu probieren: https://www.octoparse.com/blog

 

Möglichkeit 1 Extraktion der Liste mit Auto-Detect

Nachdem Sie eine neue Aufgabe mit der Beispiel-URL erstellt haben, wählen Sie „Auto-detect web page data“. Octoparse erkennt nun alle Daten auf der Seite, dann klicken Sie auf „Create workflow“, um den Workflow zu generieren.

 

Auto-Detect

 

Möglichkeit 2 Extraktion der Liste manuell

Wenn die automatische Detektion die Liste nicht erkennt oder wenn Sie eine Aufgabe selbst erstellen möchten, können Sie die Liste immer manuell extrahieren.

 

Methode 1

Schritt 1: Laden Sie die Webseite in Octoparse, bewegen Sie den Mauszeiger über das erste Item, bis der gesamte Abschnitt blau hervorgehoben wird.
Schritt 2: Gehen Sie weiter, um auf das zweite Item zu klicken. Danach würden alle gewünschten Elemente auf eine Seite ausgewählt.
Schritt 3: Wählen Sie „Extract text of the selected elements“ aus und dann würde Octoparse ein Loop Item automatisch erstellen.

 

Extract text of the selected elements

 

Sie würden beobachten, dass das erste Item nun rot hervorgehoben wird. In diesem Schritt können Sie die Information selektieren, die Sie brauchen, z.B. Titel, Datum und Schlüsselwort aus dem hervorgehobenen Bereich.

 

Schritt 4: Wählen Sie den Titel und dann „Extract the text of the element“
Schritt 5: Wiederholen Sie diese Schritte, um weitere Information zu erhalten.
Schritt 6: Klicken Sie doppelt auf den Feldernamen, um ihn umzubenennen, wenn es nötig ist.

 

Extract the text of the element

 

Methode 2

Schritt 1: Bewegen Sie den Mauszeiger über das erste Item, bis der gesamte Abschnitt blau hervorgehoben wird.
Sie würden beobachten, dass Octoparse die Unterelemente aus dem Abschnitt erkennt und sie rot hervorhebt.
Schritt 2: Wählen Sie „Select sub-elements“.
Schritt 3: Wählen Sie „Select all“.
Schritt 4: Wählen Sie „Extract data“. Ein Loop Item würde automatisch generiert, um die Items auf der Seite zu scrapen.

 

Select sub-elements

 

Tipps!

Wenn Sie die extrahierten Datenfelder bearbeiten oder löschen möchten, können Sie auf „Extract Data“ klicken und sie auf der Platte von Datenvorschau modifizieren.

 

Daten Ausgabe

 

Wenn Sie Probleme bei der Datenextraktion haben, oder uns etwas Vorschlägen geben möchten, reichen Sie bitte uns eine Anfrage ein. Erfüllen Sie eine Anfrage hier. Oder Sie können durch E-Mail (support@octoparse.com) uns kontaktieren.

 

 

Autor*in: Das Octoparse Team
Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen