Verfeinerung der gescrapten Daten (Ersetzung des Inhalt, Hinzufügen des Präfix...)
Wednesday, June 29, 2022 11:51 AMWährend Ihres Web-Scraping-Projekts möchten Sie vielleicht die Datenfelder bereinigen. Octoparse bietet 8 Datenbereinigungsoptionen, um die gescrapten Daten in das von Ihnen benötigte Format zu bringen.
Übersicht
1. Wenn sollte ich die gescrapten Daten verfeinern?
Wenn Sie das gewünschte Datenformat für ein bestimmtes Feld haben, können Sie die Funktion „Clean Data“ verwenden, um das Feld in Octoparse zu bereinigen. Octoparse würde es direkt während des Scraping-Prozesses auslesen und verfeinern, damit Sie das Feld nach dem Export der Daten in eine Excel-Datei nicht formatieren müssen.
2. Wie kann ich die gescrapten Daten in Octoparse verfeinern?
Um diese Eigenschaften in Octoparse zu verwirklichen, sollten Sie nach den folgenden 4 Schritten folgen:
Schritt 1: Wählen Sie das Datenfeld zu verfeinern.
Schritt 2: Klicken Sie auf „...“ und wählen Sie auf „Clean data“.
Schritt 3: Klicken Sie auf „Add step“.
Schritt 4: Wählen Sie eine Option, um Ihre Daten neu zu formatieren.
Tipps!
In der Programmierung bezieht sich einen „String“ grundsätzlich auf eine Sammlung von Zeichen wie Buchstaben, Ziffern, Symbole und Interpunktionszeichen. Zum Beispiel ist „“ (Leerzeichen) ein String; „Octoparse“ ist ein String; und „Hello 2 *% World!“ ist ebenfalls ein String. Ein String kann auch aus keinem Zeichen bestehen. Mit anderen Worten: Ein String, die kein Zeichen enthält, ist leer. Wenn Sie ein Wort durch einen leeren String ersetzen, ist das umgangssprachlich gleichbedeutend mit dem Löschen des Wortes.
Das Wort „String“ wird in vielen Funktionsanweisungen der Datenumformatierungsoptionen von Octoparse verwendet. Wenn Sie dort das Wort „String“ sehen, bedeutet das, dass Sie die entsprechenden Optionen verwenden können, um mit Zeichentypen in den extrahierten Daten umzugehen, z.B. Buchstaben, Wörter, Sätze, Zahlen, Leerzeichen, Symbole und Interpunktionszeichen.
2.1 9 Optionen zur Datenumformatierung
Option 1: Replace
Funktion: Ersetzen Sie den(ie) bestimmte(n) String(s) in den extrahierten Daten durch den(ie) gewünschte(n) neue(n) String(s).
Option 2: Replace with regular expression
Funktion: Verwenden Sie einen bestimmten regulären Ausdruck, um die übereinstimmende Zeichenfolge in den extrahierten Daten durch den gewünschten String zu ersetzen.
Option 3: Match with regular expression
Funktion: Verwenden Sie einen bestimmten regulären Ausdruck, um die übereinstimmende Zeichenfolge aus den extrahierten Daten herauszufiltern.
Option 4: Trim spaces
Funktion: Entfernen Sie die unerwünschten Leerzeichen am Anfang oder/und am Ende der extrahierten Daten.
Wenn Sie die Leerzeichen inmitten der Daten löschen möchten, können Sie die Funtion „Replace“ oder „Replace with regular expression“ verwenden.
Option 5: Add a prefix
Funktion: Fügen Sie vor den extrahierten Daten einen String oder mehere Strings hinzu.
Option 6: Add suffix
Funktion: Fügen Sie einen String am Ende der extrahierten Daten ein.
Option 7: Reformat extracted date/time
Funktion: Verschiebt das extrahierte Datum/die extrahierte Uhrzeit in eines der eingebauten Formate oder in Ihr eigenes, individuelles Format.
Option 8: Timestamp conversion
Funktion: Verschieben Sie den Unix-Zeitstempel in Ihr eigenes benutzerdefiniertes Format.
Der Unix-Zeitstempel ist eine Zahlenfolge, die ein bestimmtes Datum und eine bestimmte Uhrzeit darstellt. Diese Funktion wird Unix-Zeit in ein Format konvertieren, das wir leicht verstehen können.
Option 9: HTML transcoding
Funktion: Wandeln Sie bestimmte HTML-Tags automatisch in einfachen Text um. Zum Beispiel ">" in ">" und " " in ein Leerzeichen umwandeln.
Tipps!
Alle hinzugefügten Schritte können bearbeitet und gelöscht werden, indem Sie auf die Icons
klicken.
2.2 Octoparse Regex Tool
Octoparse bietet auch ein RegEx-Tool zur automatischen Generierung des benötigten regulären Ausdrucks. Schauen wir uns kurz an, wie man mit dem RegEx-Tool von Octoparse einen regulären Ausdruck erzeugt und anwendet. Hier wollen wir beispielerweise die Zahl der Sternenbewertung aus dem äußeren HTML scrapen.
Schritt 1: Klicken Sie auf „Try RegEx Tool“.
Schritt 2: Geben Sie die entsprechenden Kriterien ein, z.B. „start with src="“, „end with "“.
Schritt 3: Klicken Sie auf „generate“, um den regulären Ausdruck zu produzieren.
Schritt 4: Klicken Sie auf „Match“ zum Wählen der entsprechenden Strings.
Schritt 5: Klicken Sie auf „Apply“.
Schritt 6: Klicken Sie auf „Confirm“ zur Speicherung der Einstellungen.
Klicken Sie den Link hier, um mehr Information über die Verwendung vom Regex-Tool zu erfahren.
Wenn Sie Probleme bei der Datenextraktion haben, oder uns etwas Vorschlägen geben möchten, reichen Sie bitte uns eine Anfrage ein. Erfüllen Sie eine Anfrage hier. Oder Sie können durch E-Mail (support@octoparse.com) uns kontaktieren.
Autor*in: Das Octoparse Team