undefined

Lektion 3: Verfeinerung Ihrer Daten

Tuesday, June 21, 2022 2:17 PM
Jetzt haben Sie schon erfolgreich die Zieldaten aus der Webseite erhalten, aber die Daten sehen möglicherweise nicht genau so wie gewünscht aus. In dieser Lektion werden wir Ihnen einige praktische Methoden zeigen, um Ihnen es mitzuteilen, wie die Daten nach der Extraktion verfeinert werden können.

 

Los geht’s!

 

 

Methode 1 Umbenennen/Verschieben/Duplizieren/Löschen eines Feldes

Sobald die Daten extrahiert und schon in der Datenvorschau angezeigt wurden, können Sie nun die Daten durchsehen und beginnen, Ihre Daten zu organisieren. Die typische Sachen, die Sie zur Verfeinerung Ihrer Daten tun können, einschließlich Umbenennen der Felder, Ordnen der Spalten, Duplizieren und Löschen von Feldern, sind für Ihr Projekt unnötig.

 

Um ein Feld umzubenennen, klicken Sie doppelt auf den Namen des Feldes. Dann geben Sie den neuen Namen direkt ein. Beachten Sie, dass Sie nur Zahlen, Buchstaben und „_“ für Feldnamen verwenden sollten.

 

 ein Feld umbenennen

 

Um ein Feld zu verschieben, setzen Sie den Cursor an den Anfang des Feldes und wenn  angezeigt wird, können Sie das Feld an die richtige Stelle ziehen und ablegen.

 

 ein Feld verschieben

 

Um ein Feld zu löschen, klicken Sie auf das Symbol „show more“ und wählen Sie „Delete“.

 

 ein Feld löschen

 

Methode 2 Bereinigen der Daten

Octoparse bietet Ihnen viele verschiedene Möglichkeiten an, damit Ihre Daten bereinigt werden könnten. Zum Beispiel können Sie eine Textzeichenfolge ersetzen, zusätzliche Leerzeichen abschneiden, ein Präfix/Suffix hinzufügen, eine Zeichenfolge mit RegEx ersetzen, Datum/Uhrzeit neu formatieren und so weiter. Sie können jedes einzelne Datenfeld bei Bedürfnisse einmal oder mehrmals bereinigen, bis die Daten Ihren Anforderungen entsprechen. Bei einigen davon müssen Sie möglicherweise mit RegEx (Regular Expression) arbeiten, bei denen Sie das Tool Octoparse RegEx benutzen können.

 

Klicken Sie in der Datenvorschau mit der rechten Maustaste auf das Symbol „show more“ für das Datenfeld, das Sie bereinigen möchten, und wählen Sie dann „Clean data“.

 

 clean data

 

Klicken Sie auf „Add Step“, und wählen Sie dann eine folgende Funktion aus, durch die die Daten bearbeitet werden. Sie können beim Hinzufügen mehrerer Schritte mit den Daten weiterarbeiten, bis die Daten Ihren Anforderungen entsprechen.

 

 Add step

 

  • • Replace: Ersetzen Sie die bestimmte Zeichenfolge in den extrahierten Daten mit der gewünschten neuen Zeichenfolge(n).
  • • Replace with Regular Expression: Verwenden Sie einen bestimmten regulären Ausdruck, um die übereinstimmende Zeichenfolge in den extrahierten Daten mit der gewünschten Zeichenfolge(n) zu ersetzen.
  • • Match with Regular Expression: Verwenden Sie einen bestimmten regulären Ausdruck, um die entsprechende Zeichenfolge aus den extrahierten Daten aufzunehmen.
  • • Trim spaces: Unerwünschte Leerzeichen am Anfang oder/und am Ende der extrahierten Daten entfernen.
  • • Add a prefix: Eine Zeichenfolge/einen String am Anfang der extrahierten Daten einfügen.
  • • Add a suffix: Eine Zeichenfolge/einen String am Ende der extrahierten Daten einfügen.
  • • Reformat extracted date/time: Das extrahierte Datum/die extrahierte Uhrzeit in eines der 14 eingebauten Formate oder in ein eigenes benutzerdefiniertes Format umwandeln.
  • • Timestamp conversion: Timestamp stellt eine Zeichenfolge oder kodierte Nachricht dar und kann ein aufgezeichnetes Datum oder eine aufgezeichnete Uhrzeit identifizieren. Sie können Timestamp-Konversation benutzen, um eine Zeichenfolge in das richtige Zeitformat zu konvertieren.
  • • HTML: Einige bestimmte HTML-Tags automatisch in einfachen Text konvertieren. Zum Beispiel „&gt“ in „>“ und „&nbsp“ in ein Leerzeichen umwandeln.

 

 

Tipps!
Möchten Sie mehr über die Umformatierung von Daten und RegEx tool(Englisch) von Octoparse erfahren? Sehen Sie hier nach!

 

 

 

Methode 3 Erfassen von HTML-Code

Wenn die automatische Detektion verwendet wird, um Daten von einer Webseite zu erfassen, extrahiert Octoparse automatisch den Text und die URLs der Elemente, die Sie ausgewählt haben. Allerdings können Sie manuell das Datenfeld anpassen und Octoparse mitteilen, welches HTML-Code es extrahieren sollte.

 

In der Datenvorschau dürfen Sie auf das Symbol „show more“ klicken und „Customize field“ selektieren, dann wählen Sie, wie Sie das Erhalten der ausgewählten Daten möchten.

 

 Customize field

 

 

Methode 4 Extrahieren von Daten auf Seitenebene und Datum & Uhrzeit

Octoparse bietet viele vordefinierten Datenfelder an, mit denen Sie einfach Daten auf der Seitenebene, aktuelle Daten & aktuelle Uhrzeit oder beliebige Festwerte extrahieren können.

 

Aktuelles Datum & Aktuelle Uhrzeit: das Daten aus der Webseite extrahierte Datum und die Daten aus der Webseite extrahierte Uhrzeit
Daten auf Seitenebene: Seiten-URL, Seitentitel, Meta-Keyword, Meta-Beschreibung und HTML-Quellcode
Fester Wert: ein fester Wert, den Sie definieren

 

Klicken Sie auf das + Zeichen in der oberen rechten Ecke der Datenvorschau. Wählen Sie beliebige vordefinierte Datenfelder aus, die Sie dem Datensatz hinzufügen möchten.

 

 + Zeichen

 

 

Bis jetzt haben wir alle Schritte zum Aufbau und zur Verfeinerung des Workflows erklärt, es ist die Zeit, eine Test-Aufgabe auszuführen! >> Lektion 4: Test - Ausführung der Aufgabe

 

 

Autor*in: Das Octoparse Team
Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen