undefined

Funktionvorstellung von „Extract data“ und Elemente

Thursday, June 23, 2022 3:25 PM
Die bedeutendeste Funktion in Octoparse ist unbestritten „Extract data“. Heutzutage würde ich Ihnen diese erzählen, damit Sie ein klarers Verständnis daüber haben. Außerdem würden Sie sich auch darüber wissen, wie die unterschiedlichen Elemente exrahiert werden.

 

 

 

Teil 1 Die Vorstellung über „Extract data“

1. Was ist „Extract data“?

„Extract data“ ist ein notwendiger Schritt, wenn Sie Ihre Aufgabe erstellen, um die gewünschten Daten zu extrahieren. Alle benögtigten Datenfelder können in diesem Schritt gefunden werden. Unter diesem Schritt können Sie Daten bereinigen, XPath modifizieren, die Reihenfolge ändern, Datenfelder kopieren, Datenfelder löschen usw. Ohne diesen Schritt würde Ihre Aufgabe nicht durchgeführt.

 

 Was ist „Extract data“?

 

2. Wie wird „Extract data“ dem Workflow hinzugefügt?

Es gibt insgesamt zwei Methoden, damit Octoparse die Aktion „Extract data“ generieren kann.

 

Methode 1: Klicken Sie auf ein Element auf der Seite, um einen Schritt von „Extract data“ automatisch generiert zu werden (am häufigsten)
Wenn Sie Daten von einer Seite erfassen wollen, müssen Sie nur zuerst auf das Element klicken. Klicken Sie dann auf die Option „Extract...“ im Bedienfeld „Tipps“ und eine Aktion „Extract data“ wird im Workflow angezeigt.
Die möglichen Optionen sind:
„Extract text/URL of the selected element“
„Extract the inner/outer HTML of the selected element“
„Extract data“
„Extract data in the loop“
...

 

 mögliche Optionen

 

Methode 2: Hinzufügen im Workflow
Wenn Sie den Mauszeiger über den Workflow bewegen, wird ein Symbol  angezeigt. Klicken Sie auf das Symbol, um die Dropdown-Optionen abzurufen, dann wählen Sie „Extract data“, um dem Workflow diesen Schritt hinzuzufügen.

 

 Extract data

 

3. Einstellungen der Aktion

Um weitere Einstellungen von Datenfeldern vorzunehmen, können Sie im Workflow auf „Extract data“ klicken und am Ende der Website die Einstellungspanel finden. Da können Sie wissen, dass es dort drei hauptsächliche Eigenschaften gibt.
Im Bereich von „General“ würden Sie „Extract data in the loop“ finden, wenn die Aktion „Extract data“ im Loop-Item liegt.

 

 Extract data in the loop

 

Im Bereich von „Options“ würden Sie „Wait before action“ und „Trigger“ finden.

 

 Wait before action

 

Einstellung 1: Extract data in the loop
Diese Option erscheint nur in dieser Situation, wenn die extrahierten Daten innerhalb eines Loop-Item stehen. Diese Option ist normalerweise aktiviert, wenn Sie Daten direkt aus einer Auflistungsseite scrapen, anstatt in die Detailseite zu klicken, um Daten zu erfassen.
Hier ist ein Beispiel einer Listeseite:

 

 Listeseite

 

Um weitere Informationen zum Extrahieren von Daten aus einer Listenergebnisseite zu lernen, schauen Sie diesen Artikel an: Eine Liste extrahieren.

 

Einstellung 2: Before action is performed (add wait time)
Hier können Sie eine Wartezeit einstellen, bevor die Aktion ausgeführt wird. Verschiedene Webseiten benötigen unterschiedliche Wartezeit, um Daten zu laden, deswegen sollen Sie manchmal eine Wartezeit oder Wartebedingungen einstellen, um der Webseite mehr Zeit zum Laden zu geben.
Lesen Sie diese Anleitung für verschiedene Anwendungsfälle: Warten vor der Aktion.

 

 Before action is performed

 

Einstellung 3: Trigger
Trigger wird verwendet, wenn Sie Daten basierend auf bestimmten Bedingungen extrahieren möchten.
Wenn zum Beispiel eine Datenzeile im Feld 1 nicht leer ist und Sie diese Zeile mit Daten löschen möchten, können Sie Trigger verwenden, um es zu verwirklichen. Erfahren Sie weitere Details über Trigger.

 

 Trigger

 

Einstellung 4: Define data fields
Hier können Sie die Details von Datenfelder auf der Datenvorschau finden und Aktionen wie Umbenennen (doppelklicken auf den Feldername), Löschen, Verschieben oder Bereinigen Ihrer Datenfelder durchführen. Außerdem können Sie zusätzliche Felder wie Extraktionszeit, aktuelle Seiten-URL usw. aus einer vordefinierten Liste hinzufügen.
Sie können hier auch XPath eines bestimmten Datenfeldes überarbeiten, wenn es das Datenfeld nicht richtig lokalisiert hat.

 

 Define data fields

 

Um besser zu verstehen, wofür die Symbole stehen, sehen Sie die folgenden Einzelheiten an:
Sie können in den Vertikalen Bildwinkel wechseln, um XPath von allen Felder einfacher zu modifizieren. Oder Sie können die Aktionen für mehrere Felder ausführen, indem Sie das Kästchen vor jedem Feld ankreuzen.

 

 Horizontaler & Vertikaler Bildwinkel

 

 

 mehrere Optionen

 

 

 

Teil 2 Extraktion von Elemente auf einer Webseite
Es gibt verschiedene Arten von Informationen auf Webseiten, wie z. B. Text, Bilder, usw. Octoparse ist in der Lage, verschiedene Informationen zu extrahieren. In diesem Tutorial zeigen wir Ihnen, wie Sie mit Octoparse Text, URL, Bild-URL, HTML und Attribute extrahieren können.

 

1. Extrahieren des Textes

Die meisten Daten werden im Internet als lesbarer Text dargestellt, z.B. Nachrichten, Produktinformationen und Blogs.
Sehen wir uns an, wie man die Textdaten mit Octoparse auswählt und extrahiert.
Schritt 1: Klicken Sie auf Ihre gewünschten Zieldaten.
Wenn Sie auf das Element klicken, das Sie möchten, würde der Auswahlsbereich grün hervorgehoben.
Schritt 2: Extrahieren Sie den Text.
Klicken Sie auf „Extract text of the selected element“, um den Text abzurufen.

 

 Text scrapen

 

2. Scrapen der URL eines Links oder Bildes

Eine URL ist ein Hyperlink. Mit einem einzigen Klick auf eine URL können Sie eine neue Webseite öffnen oder zu einer neuen Website gehen, wie Sie in Amazon auf den Titel eines Buches klicken.
Neben einer Webseite ermöglicht Ihnen die URL auch den Zugriff auf eine bestimmte Dateiressource im Internet, z.B. ein Bild oder ein PDF-Dokument. Wenn Sie die URL erhalten, können Sie die entsprechende Datei oder das Bild über die URL aus dem Internet herunterladen.
Sehen wir uns an, wie man die URL eines Links oder Bildes mit Octoparse auswählt und extrahiert.

 

Szene 1: Scrapen der URL eines Links

Schritt 1: Klicken Sie auf Ihren gewünschten Link
Wenn Sie auf den gewünschten Link oder das gewünschte Bild klicken, würde der Auswahlsbereich grün hervorgehoben.

 

Tipps!

Wenn Sie ein Element mit einer URL auswählen, sollte das ausgewählte Tag am unteren Rand von „Tipps“ „A“ sein, was für einen Anker steht, mit dem eine Seite mit einer anderen verbindet wird. Bitte feststellen Sie, dass Sie das richtige Element ausgewählt haben.

 

Schritt 2: Scrapen Sie die URL.
Klicken Sie auf „Extract the URL of the selected element“ auf „Tips“, um die URL zu erhalten.

 

 URL scrapen

 

 

Szene 2: Scrapen der URL eines Bildes

Schritt 1: Klicken Sie auf Ihr gewünschtes Bild
Schritt 2: Extrahieren Sie die URL.

 

 URL eines Bildes scrapen

 

 

Tipps!

Kann ich mit Octoparse direkt ein Bild anstatt seiner URL aus der Website bekommen?
Leider können Sie mit Octoparse nicht gerade ein Bild erhalten. Wenn Sie die Bilder herunterladen möchten, können Sie zuerst mit Octoparse die URLs davon scrapen, dann mit der Methode „Herunterladen aus URL(Englisch) die Bilder erhalten.

 

 

3. Scrapen des inneren/äußeren HTML

Im Gegensatz zu Texte und URLs können Daten wie Symbole nicht direkt extrahiert werden. Wenn Sie visuelle Nicht-Text-Inhalte wie die Sternebewertung in E-Commerce-Website extrahieren möchten, müssen Sie das innere/äußere HTML der Inhalte extrahieren.
Außerhalb der Symbole können Sie auch versteckte Texte, Diagramme und Grafiken aus einer Webseite extrahieren, indem Sie zunächst den HTML-Code dieser Elemente extrahieren. Nachdem Sie den HTML-Code erhalten haben, können Sie reguläre Ausdrücke anwenden, um die Daten zu bereinigen.
Sehen wir uns zunächst an, wie man mit Octoparse inneren/äußeren HTML-Code auswählt und extrahiert.
Schritt 1: Klicken Sie auf Ihre gewünschten Daten.
Wenn Sie auf das gewünschte Element klicken, würde der Auswahlsbereich grün hervorgehoben.
Schritt 2: Scrapen Sie das innere/äußere HTML.
Klicken Sie auf „Extract inner/outer HTML of the selected“ auf der „Tips“-Platte.

 

 das innere oder äußeren HTML scrapen

 

 

Tipps!

Octoparse bietet sowohl nützliche Funktionen als auch Werkzeuge für die Anwendung regulärer Ausdrücke.
Relative Artikeln:

 

 

4. Scrapen der Attribute

Attribute befinden sich innerhalb des HTML-Codes und liefern zusätzliche Informationen über HTML-Elemente. Zum Beispiel wird die Sternebewertung normalerweise in einem Attribut gespeichert. Es wird oft in Name/Wert-Paaren wie name=„Wert“ gespeichert. Octoparse kann helfen, den Wert direkt auszulesen.
Schritt 1: Wählen Sie das Element aus (hier nehmen wir die Sternebewertung als Beispiel).
Schritt 2: Scrapen Sie Text oder HTML des Elements.

 

 Text oder HTML des Elements scrapen

 

Schritt 3: Schweben Sie Ihren Maus über dem Namefeld, dann können Sie „⋯“ sehen. Klicken Sie darauf und bewegen Sie es in „Cutomize field“ und „Extract attribute“.

 

 Extract attribute

 

 

Tipps!

1. Sie können auch andere Informationen aus dem Element extrahieren, indem Sie „Customize data field“ verwenden. Zum Beispiel, nachdem Sie ausgewählt haben, den Text zu scrapen, möchten aber später den HTML-Code des Elements auslesen. In solcher Situation können Sie sie einfach zum „Customize data field“ gehen und die Option „Extract the outer HTML“ wählen.
2. Alle Arten von Daten werden beim Exportieren in eine Datei im Textformat gespeichert.
Customize data field 

 

 

Wenn Sie Probleme bei der Datenextraktion haben, oder uns etwas Vorschlägen geben möchten, reichen Sie bitte uns eine Anfrage ein. Erfüllen Sie eine Anfrage hier. Oder Sie können durch E-Mail (support@octoparse.com) uns kontaktieren.

 

 

Autor*in: Das Octoparse Team
Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen