Die bedeutendeste Funktion in Octoparse ist unbestritten „Extract data“. Heutzutage würde ich Ihnen diese erzählen, damit Sie ein klarers Verständnis daüber haben. Außerdem würden Sie sich auch darüber wissen, wie die unterschiedlichen Elemente exrahiert werden.

Teil 1 Die Vorstellung über „Extract data“

1. Was ist „Extract data“?

„Extract data“ ist ein notwendiger Schritt, wenn Sie Ihre Aufgabe erstellen, um die gewünschten Daten zu extrahieren. Alle benögtigten Datenfelder können in diesem Schritt gefunden werden. Unter diesem Schritt können Sie Daten bereinigen, XPath modifizieren, die Reihenfolge ändern, Datenfelder kopieren, Datenfelder löschen usw. Ohne diesen Schritt würde Ihre Aufgabe nicht durchgeführt.

2. Wie wird „Extract data“ dem Workflow hinzugefügt?

Es gibt insgesamt zwei Methoden, damit Octoparse die Aktion „Extract data“ generieren kann.

Methode 1: Klicken Sie auf ein Element auf der Seite, um einen Schritt von „Extract data“ automatisch generiert zu werden (am häufigsten)

Wenn Sie Daten von einer Seite erfassen wollen, müssen Sie nur zuerst auf das Element klicken. Klicken Sie dann auf die Option „Extract...“ im Bedienfeld „Tipps“ und eine Aktion „Extract data“ wird im Workflow angezeigt.

Die möglichen Optionen sind:

„Extract text/URL of the selected element“

„Extract the inner/outer HTML of the selected element“

„Extract data“

„Extract data in the loop“

...

Methode 2: Hinzufügen im Workflow

Wenn Sie den Mauszeiger über den Workflow bewegen, wird ein Symbol angezeigt. Klicken Sie auf das Symbol, um die Dropdown-Optionen abzurufen, dann wählen Sie „Extract data“, um dem Workflow diesen Schritt hinzuzufügen.

3. Einstellungen der Aktion

Um weitere Einstellungen von Datenfeldern vorzunehmen, können Sie im Workflow auf „Extract data“ klicken und am Ende der Website die Einstellungspanel finden. Da können Sie wissen, dass es dort drei hauptsächliche Eigenschaften gibt.

Im Bereich von „General“ würden Sie „Extract data in the loop“ finden, wenn die Aktion „Extract data“ im Loop-Item liegt.

Im Bereich von „Options“ würden Sie „Wait before action“ und „Trigger“ finden.

Einstellung 1: Extract data in the loop

Diese Option erscheint nur in dieser Situation, wenn die extrahierten Daten innerhalb eines Loop-Item stehen. Diese Option ist normalerweise aktiviert, wenn Sie Daten direkt aus einer Auflistungsseite scrapen, anstatt in die Detailseite zu klicken, um Daten zu erfassen.

Hier ist ein Beispiel einer Listeseite:

Um weitere Informationen zum Extrahieren von Daten aus einer Listenergebnisseite zu lernen, schauen Sie diesen Artikel an: Eine Liste extrahieren.

Einstellung 2: Before action is performed (add wait time)

Hier können Sie eine Wartezeit einstellen, bevor die Aktion ausgeführt wird. Verschiedene Webseiten benötigen unterschiedliche Wartezeit, um Daten zu laden, deswegen sollen Sie manchmal eine Wartezeit oder Wartebedingungen einstellen, um der Webseite mehr Zeit zum Laden zu geben.

Lesen Sie diese Anleitung für verschiedene Anwendungsfälle: Warten vor der Aktion.

Einstellung 3: Trigger

Trigger wird verwendet, wenn Sie Daten basierend auf bestimmten Bedingungen extrahieren möchten.

Wenn zum Beispiel eine Datenzeile im Feld 1 nicht leer ist und Sie diese Zeile mit Daten löschen möchten, können Sie Trigger verwenden, um es zu verwirklichen. Erfahren Sie weitere Details über Trigger.

Einstellung 4: Define data fields

Hier können Sie die Details von Datenfelder auf der Datenvorschau finden und Aktionen wie Umbenennen (doppelklicken auf den Feldername), Löschen, Verschieben oder Bereinigen Ihrer Datenfelder durchführen. Außerdem können Sie zusätzliche Felder wie Extraktionszeit, aktuelle Seiten-URL usw. aus einer vordefinierten Liste hinzufügen.

Sie können hier auch XPath eines bestimmten Datenfeldes überarbeiten, wenn es das Datenfeld nicht richtig lokalisiert hat.

Um besser zu verstehen, wofür die Symbole stehen, sehen Sie die folgenden Einzelheiten an:

- Hinzufügen der Datenfelder: Datenfelder aus einer vordefinierten Liste hinzufügen usw. (Add pre-defined data fields)

- Importieren der Datenfelder: Datenfeld(er) aus einer Datendatei importieren [Octoparse extract config (*.oec)]

- Exportieren der Datenfelder: Datenfeld(er) in eine Datendatei exportieren [Octoparse extract config (*.oec)]

- Horizontaler & Vertikaler Bildwinkel: Er zeigt verschiedene Sturukturen in der Datenvorschau.

Sie können in den Vertikalen Bildwinkel wechseln, um XPath von allen Felder einfacher zu modifizieren. Oder Sie können die Aktionen für mehrere Felder ausführen, indem Sie das Kästchen vor jedem Feld ankreuzen.

- Entfernen Duplikate von den extrahierten Daten

- More actions: Wenn Sie auf den Button klicken und Sie werden mehrere Optionen sehen, durch die Sie mehrere Aktionen durchführen können, um Ihre Daten zu verändern.

- Copy: um ein bestimmtes Datenfeld zu kopieren.

- Delete: um das jetzige Datenfeld zu entfernen.

- Clean data: um die Datenausgabe in die gewünschte Form zu bereinigen (z.B. Präfix, Suffix hinzufügen, die Zeit umwandeln, ersetzen usw.). Um mehr darüber zu erfahren, können Sie dieses Tutorial lesen: Verfeinerung der gescrapten Daten (Ersetzung des Inhalt, Hinzufügen des Präfix...).

- Customize field: Hier können Sie auswählen, welche Informationen (Text, HTML, ein Attributwert oder eine URL) Sie extrahieren möchten.

- Customize XPath (Um mehr Information über XPath zu lernen, schauen Sie dieses Tutorial an: Was ist XPath und wie zu verwenden in Octoparse?)

- Merge multiple rows of data into one: um die gleichen Datenfelder aus den anderen Loop-Items zu verbinden. Um mehr darüber zu erfahren, können Sie dieses Tutorial anschauen: Kombinieren extrahierte Daten.

Teil 2 Extraktion von Elemente auf einer Webseite

Es gibt verschiedene Arten von Informationen auf Webseiten, wie z. B. Text, Bilder, usw. Octoparse ist in der Lage, verschiedene Informationen zu extrahieren. In diesem Tutorial zeigen wir Ihnen, wie Sie mit Octoparse Text, URL, Bild-URL, HTML und Attribute extrahieren können.

1. Extrahieren des Textes

Die meisten Daten werden im Internet als lesbarer Text dargestellt, z.B. Nachrichten, Produktinformationen und Blogs.

Sehen wir uns an, wie man die Textdaten mit Octoparse auswählt und extrahiert.

Schritt 1: Klicken Sie auf Ihre gewünschten Zieldaten.

Wenn Sie auf das Element klicken, das Sie möchten, würde der Auswahlsbereich grün hervorgehoben.

Schritt 2: Extrahieren Sie den Text.

Klicken Sie auf „Extract text of the selected element“, um den Text abzurufen.

2. Scrapen der URL eines Links oder Bildes

Eine URL ist ein Hyperlink. Mit einem einzigen Klick auf eine URL können Sie eine neue Webseite öffnen oder zu einer neuen Website gehen, wie Sie in Amazon auf den Titel eines Buches klicken.

Neben einer Webseite ermöglicht Ihnen die URL auch den Zugriff auf eine bestimmte Dateiressource im Internet, z.B. ein Bild oder ein PDF-Dokument. Wenn Sie die URL erhalten, können Sie die entsprechende Datei oder das Bild über die URL aus dem Internet herunterladen.

Sehen wir uns an, wie man die URL eines Links oder Bildes mit Octoparse auswählt und extrahiert.

Szene 1: Scrapen der URL eines Links

Schritt 1: Klicken Sie auf Ihren gewünschten Link

Wenn Sie auf den gewünschten Link oder das gewünschte Bild klicken, würde der Auswahlsbereich grün hervorgehoben.

Tipps!

Wenn Sie ein Element mit einer URL auswählen, sollte das ausgewählte Tag am unteren Rand von „Tipps“ „A“ sein, was für einen Anker steht, mit dem eine Seite mit einer anderen verbindet wird. Bitte feststellen Sie, dass Sie das richtige Element ausgewählt haben.

Schritt 2: Scrapen Sie die URL.

Klicken Sie auf „Extract the URL of the selected element“ auf „Tips“, um die URL zu erhalten.

Szene 2: Scrapen der URL eines Bildes

Schritt 1: Klicken Sie auf Ihr gewünschtes Bild.
Schritt 2: Extrahieren Sie die URL.

Tipps!

Kann ich mit Octoparse direkt ein Bild anstatt seiner URL aus der Website bekommen?

Leider können Sie mit Octoparse nicht gerade ein Bild erhalten. Wenn Sie die Bilder herunterladen möchten, können Sie zuerst mit Octoparse die URLs davon scrapen, dann mit der Methode „Herunterladen aus URL“(Englisch) die Bilder erhalten.

3. Scrapen des inneren/äußeren HTML

Im Gegensatz zu Texte und URLs können Daten wie Symbole nicht direkt extrahiert werden. Wenn Sie visuelle Nicht-Text-Inhalte wie die Sternebewertung in E-Commerce-Website extrahieren möchten, müssen Sie das innere/äußere HTML der Inhalte extrahieren.

Außerhalb der Symbole können Sie auch versteckte Texte, Diagramme und Grafiken aus einer Webseite extrahieren, indem Sie zunächst den HTML-Code dieser Elemente extrahieren. Nachdem Sie den HTML-Code erhalten haben, können Sie reguläre Ausdrücke anwenden, um die Daten zu bereinigen.

Sehen wir uns zunächst an, wie man mit Octoparse inneren/äußeren HTML-Code auswählt und extrahiert.

Schritt 1: Klicken Sie auf Ihre gewünschten Daten.

Wenn Sie auf das gewünschte Element klicken, würde der Auswahlsbereich grün hervorgehoben.

Schritt 2: Scrapen Sie das innere/äußere HTML.

Klicken Sie auf „Extract inner/outer HTML of the selected“ auf der „Tips“-Platte.

Tipps!

Octoparse bietet sowohl nützliche Funktionen als auch Werkzeuge für die Anwendung regulärer Ausdrücke.

Relative Artikeln:

4. Scrapen der Attribute

Attribute befinden sich innerhalb des HTML-Codes und liefern zusätzliche Informationen über HTML-Elemente. Zum Beispiel wird die Sternebewertung normalerweise in einem Attribut gespeichert. Es wird oft in Name/Wert-Paaren wie name=„Wert“ gespeichert. Octoparse kann helfen, den Wert direkt auszulesen.

Schritt 1: Wählen Sie das Element aus (hier nehmen wir die Sternebewertung als Beispiel).
Schritt 2: Scrapen Sie Text oder HTML des Elements.

Schritt 3: Schweben Sie Ihren Maus über dem Namefeld, dann können Sie „⋯“ sehen. Klicken Sie darauf und bewegen Sie es in „Cutomize field“ und „Extract attribute“.

Tipps!

Sie können auch andere Informationen aus dem Element extrahieren, indem Sie „Customize data field“ verwenden. Zum Beispiel, nachdem Sie ausgewählt haben, den Text zu scrapen, möchten aber später den HTML-Code des Elements auslesen. In solcher Situation können Sie sie einfach zum „Customize data field“ gehen und die Option „Extract the outer HTML“ wählen.
Alle Arten von Daten werden beim Exportieren in eine Datei im Textformat gespeichert.

Verwandte Artikel

Funktionvorstellung von „Branch Conditions“

Warum so viele Duplikate und wie sie zu löschen?

Daten Scraping von IFrame

Scraping der Ergebnis-Infos auf einer Liste von Bing

Scraping der Nachrichten von Bild.de