Lektion 3: Verfeinerung Ihrer Daten
Tuesday, June 21, 2022 2:17 PMJetzt haben Sie schon erfolgreich die Zieldaten aus der Webseite erhalten, aber die Daten sehen möglicherweise nicht genau so wie gewünscht aus. In dieser Lektion werden wir Ihnen einige praktische Methoden zeigen, um Ihnen es mitzuteilen, wie die Daten nach der Extraktion verfeinert werden können.
Los geht’s!
Methode 1 Umbenennen/Verschieben/Duplizieren/Löschen eines Feldes
Sobald die Daten extrahiert und schon in der Datenvorschau angezeigt wurden, können Sie nun die Daten durchsehen und beginnen, Ihre Daten zu organisieren. Die typische Sachen, die Sie zur Verfeinerung Ihrer Daten tun können, einschließlich Umbenennen der Felder, Ordnen der Spalten, Duplizieren und Löschen von Feldern, sind für Ihr Projekt unnötig.
Um ein Feld umzubenennen, klicken Sie doppelt auf den Namen des Feldes. Dann geben Sie den neuen Namen direkt ein. Beachten Sie, dass Sie nur Zahlen, Buchstaben und „_“ für Feldnamen verwenden sollten.
Um ein Feld zu verschieben, setzen Sie den Cursor an den Anfang des Feldes und wenn
angezeigt wird, können Sie das Feld an die richtige Stelle ziehen und ablegen.
Um ein Feld zu löschen, klicken Sie auf das Symbol „show more“ und wählen Sie „Delete“.
Methode 2 Bereinigen der Daten
Octoparse bietet Ihnen viele verschiedene Möglichkeiten an, damit Ihre Daten bereinigt werden könnten. Zum Beispiel können Sie eine Textzeichenfolge ersetzen, zusätzliche Leerzeichen abschneiden, ein Präfix/Suffix hinzufügen, eine Zeichenfolge mit RegEx ersetzen, Datum/Uhrzeit neu formatieren und so weiter. Sie können jedes einzelne Datenfeld bei Bedürfnisse einmal oder mehrmals bereinigen, bis die Daten Ihren Anforderungen entsprechen. Bei einigen davon müssen Sie möglicherweise mit RegEx (Regular Expression) arbeiten, bei denen Sie das Tool Octoparse RegEx benutzen können.
Klicken Sie in der Datenvorschau mit der rechten Maustaste auf das Symbol „show more“ für das Datenfeld, das Sie bereinigen möchten, und wählen Sie dann „Clean data“.
Klicken Sie auf „Add Step“, und wählen Sie dann eine folgende Funktion aus, durch die die Daten bearbeitet werden. Sie können beim Hinzufügen mehrerer Schritte mit den Daten weiterarbeiten, bis die Daten Ihren Anforderungen entsprechen.
- • Replace: Ersetzen Sie die bestimmte Zeichenfolge in den extrahierten Daten mit der gewünschten neuen Zeichenfolge(n).
- • Replace with Regular Expression: Verwenden Sie einen bestimmten regulären Ausdruck, um die übereinstimmende Zeichenfolge in den extrahierten Daten mit der gewünschten Zeichenfolge(n) zu ersetzen.
- • Match with Regular Expression: Verwenden Sie einen bestimmten regulären Ausdruck, um die entsprechende Zeichenfolge aus den extrahierten Daten aufzunehmen.
- • Trim spaces: Unerwünschte Leerzeichen am Anfang oder/und am Ende der extrahierten Daten entfernen.
- • Add a prefix: Eine Zeichenfolge/einen String am Anfang der extrahierten Daten einfügen.
- • Add a suffix: Eine Zeichenfolge/einen String am Ende der extrahierten Daten einfügen.
- • Reformat extracted date/time: Das extrahierte Datum/die extrahierte Uhrzeit in eines der 14 eingebauten Formate oder in ein eigenes benutzerdefiniertes Format umwandeln.
- • Timestamp conversion: Timestamp stellt eine Zeichenfolge oder kodierte Nachricht dar und kann ein aufgezeichnetes Datum oder eine aufgezeichnete Uhrzeit identifizieren. Sie können Timestamp-Konversation benutzen, um eine Zeichenfolge in das richtige Zeitformat zu konvertieren.
- • HTML: Einige bestimmte HTML-Tags automatisch in einfachen Text konvertieren. Zum Beispiel „>“ in „>“ und „ “ in ein Leerzeichen umwandeln.
Tipps!
Möchten Sie mehr über die Umformatierung von Daten und RegEx tool(Englisch) von Octoparse erfahren? Sehen Sie hier nach!
Methode 3 Erfassen von HTML-Code
Wenn die automatische Detektion verwendet wird, um Daten von einer Webseite zu erfassen, extrahiert Octoparse automatisch den Text und die URLs der Elemente, die Sie ausgewählt haben. Allerdings können Sie manuell das Datenfeld anpassen und Octoparse mitteilen, welches HTML-Code es extrahieren sollte.
In der Datenvorschau dürfen Sie auf das Symbol „show more“ klicken und „Customize field“ selektieren, dann wählen Sie, wie Sie das Erhalten der ausgewählten Daten möchten.
Methode 4 Extrahieren von Daten auf Seitenebene und Datum & Uhrzeit
Octoparse bietet viele vordefinierten Datenfelder an, mit denen Sie einfach Daten auf der Seitenebene, aktuelle Daten & aktuelle Uhrzeit oder beliebige Festwerte extrahieren können.
• Aktuelles Datum & Aktuelle Uhrzeit: das Daten aus der Webseite extrahierte Datum und die Daten aus der Webseite extrahierte Uhrzeit
• Daten auf Seitenebene: Seiten-URL, Seitentitel, Meta-Keyword, Meta-Beschreibung und HTML-Quellcode
• Fester Wert: ein fester Wert, den Sie definieren
Klicken Sie auf das + Zeichen in der oberen rechten Ecke der Datenvorschau. Wählen Sie beliebige vordefinierte Datenfelder aus, die Sie dem Datensatz hinzufügen möchten.
Bis jetzt haben wir alle Schritte zum Aufbau und zur Verfeinerung des Workflows erklärt, es ist die Zeit, eine Test-Aufgabe auszuführen! >> Lektion 4: Test - Ausführung der Aufgabe
Autor*in: Das Octoparse Team