Daten Scraping von JSON-Links
Friday, June 10, 2022 3:09 PMÜberblick
-Warum aus JOSN-Links extrahieren?
-Wie ist die JSON-Anwendung für Daten-Scraping mit Octoparse?
Was ist JSON?
JSON (Abk. von Java Script Object Notation) ist ein leicht benutzbares und textbasiertes Datenaustauschformat. Es ist nicht nur für Menschen einfach zu lesen und schreiben, sondern auch für Maschinen einfach zu analysieren und generieren. Infolgedessen wird es häufig von Webseiten verwendet, um die Effizienz der Netzwerkübertragung zu verbessern.
Warum aus JSON-Links extrahieren?
Die Extraktion aus JSON-Links ermöglicht die schnellere und sicherere Konvertierung von Daten aus dem JSON-Format in ein strukturiertes Format. Dies kann uns helfen:
• Daten ohne Laden von Bildern schneller zu extrahieren,
• von Anti-Scraping-Einschränkungen auf vielen Webseiten umzugehen,
• Mehr Tasten zu laden und unendliches Scrollen leichter zu handeln.
Wie ist die JSON-Anwendung für Daten-Scraping mit Octoparse?
Zu Demonstrationszwecken werden wir Daten von einer Angebotsseite auf Booking.com mit JSON extrahieren. Sehen Sie sich die Beispiel-URL an:https://jobs.booking.com/careers?location=netherlands&query=&domain=booking.com
Schritt 1: Untersuchen Sie die Webseite in einem Browser, um die URL zu identifizieren, ob die Ihnen benötigte JSON-Datei enthält.
• Öffnen Sie das Beispiel URL in Chrome.
• Klicken Sie mit der rechten Maustaste auf die Webseite und wählen Sie „Inspect” dann öffnen DevTools.
• Wählen Sie „Fetch/XHR” von Network tab.
• Klicken Sie auf „clear icon(
)” um die geladenen Informationen zu löschen.

• Scrollen Sie die Webseite bis zu Job Listing.
• Überprüfen Sie die geladenen URLs in XHR, ob die die JSON-Daten enthalten.
• Klicken Sie auf die Name von einem URL und überprüfen Sie „Headers”, ob JSON in „content-type” unter „Request Headers” enthalten ist.
• Klicken Sie auf „Preview” und sehen Sie dann die Gesamtzahl 363 beträgt.
• Scrollen Sie etwas weiter nach unten und vergleichen Sie die Anforderungs-URLs, um ein Muster zu finden
Durch den Vergleich der Anforderungs-URLs stellen wir fest, dass der Parameter start= in der URL jedes Mal um 10 zunimmt.
• Kopieren Sie die URL mit der JSON-Datei (Request URL in Headers). https://jobs.booking.com/api/apply/v2/jobs?domain=booking.com&start=10&num=10&location=netherlands&domain=booking.com
Schritt 2: Eine Reihe von JSON-URLs generieren und dann die Datan daraus extrahieren.
Als nächstes müssen wir die JSON-URL-Liste in Octoparse per Batch generieren.
• Öffnen Sie Octoparse und starten Sie eine neue erweiterte Aufgabe, die Eingabe-URLs per Batch generiert.
• Fügen Sie die kopierte URL in das Feld URL-Format ein.
• Wählen Sie das sich ändernde Element in der URL aus und klicken Sie auf „Add Parameter”.
• Setzen Sie den Anfangswert auf 0, jedes Mal auf +10 und den Endwert auf 363 und klicken Sie zum Speichern auf „Apply”.
Hinweis: Der Endwert ändert sich ständig. Geben Sie den tatsächlichen Wert ein, den Sie in Chrome finden.

• Klicken Sie auf „Apply” und aktivieren Sie das JSON von „General”.
• Klicken Sie zum Speichern auf „Apply”.
Schritt 3: Wählen Sie die Ihnen benötigten Daten aus und exportieren die Datenergebnisse.
• Klicken Sie auf „positions” vom Tab „Tree” und extrahieren Sie die Daten wie „Name”„display_job id”„business Unit”.
• Speichern Sie die Aufgabe und führen Sie sie aus, um die benötigten Daten zu erhalten.
Hier ist die Datenausgabe als Beispiel:

Autor*in: Das Octoparse Team