undefined

Daten Scraping von JSON-Links

Friday, June 10, 2022 3:09 PM

 

Was ist JSON?

 

JSON (Abk. von Java Script Object Notation) ist ein leicht benutzbares und textbasiertes Datenaustauschformat. Es ist nicht nur für Menschen einfach zu lesen und schreiben, sondern auch für Maschinen einfach zu analysieren und generieren. Infolgedessen wird es häufig von Webseiten verwendet, um die Effizienz der Netzwerkübertragung zu verbessern.

 

 

Warum aus JSON-Links extrahieren?

 

Die Extraktion aus JSON-Links ermöglicht die schnellere und sicherere Konvertierung von Daten aus dem JSON-Format in ein strukturiertes Format. Dies kann uns helfen:
• Daten ohne Laden von Bildern schneller zu extrahieren,
• von Anti-Scraping-Einschränkungen auf vielen Webseiten umzugehen,
• Mehr Tasten zu laden und unendliches Scrollen leichter zu handeln.

 

Wie ist die JSON-Anwendung für Daten-Scraping mit Octoparse?

 

Zu Demonstrationszwecken werden wir Daten von einer Angebotsseite auf Booking.com mit JSON extrahieren. Sehen Sie sich die Beispiel-URL an:https://jobs.booking.com/careers?location=netherlands&query=&domain=booking.com

 

Schritt 1: Untersuchen Sie die Webseite in einem Browser, um die URL zu identifizieren, ob die Ihnen benötigte JSON-Datei enthält.

• Öffnen Sie das Beispiel URL in Chrome.
• Klicken Sie mit der rechten Maustaste auf die Webseite und wählen Sie „Inspect” dann öffnen DevTools.
• Wählen Sie „Fetch/XHR” von Network tab.
• Klicken Sie auf „clear icon(Daten Scraping von JSON-Links_01)” um die geladenen Informationen zu löschen.
• Scrollen Sie die Webseite bis zu Job Listing.
• Überprüfen Sie die geladenen URLs in XHR, ob die die JSON-Daten enthalten.

 

Daten Scraping von JSON-Links_02

• Klicken Sie auf die Name von einem URL und überprüfen Sie „Headers”, ob JSON in „content-type” unter „Request Headers” enthalten ist.

 

Daten Scraping von JSON-Links_03

 

• Klicken Sie auf „Preview” und sehen Sie dann die Gesamtzahl 363 beträgt.

 

Daten Scraping von JSON-Links_04

 

 

Durch den Vergleich der Anforderungs-URLs stellen wir fest, dass der Parameter start= in der URL jedes Mal um 10 zunimmt.

 

 

Schritt 2: Eine Reihe von JSON-URLs generieren und dann die Datan daraus extrahieren.

 

Als nächstes müssen wir die JSON-URL-Liste in Octoparse per Batch generieren.
• Öffnen Sie Octoparse und starten Sie eine neue erweiterte Aufgabe, die Eingabe-URLs per Batch generiert.
• Fügen Sie die kopierte URL in das Feld URL-Format ein.
• Wählen Sie das sich ändernde Element in der URL aus und klicken Sie auf „Add Parameter”.

 

Daten Scraping von JSON-Links_05

 

Hinweis: Der Endwert ändert sich ständig. Geben Sie den tatsächlichen Wert ein, den Sie in Chrome finden.
Daten Scraping von JSON-Links_06

 

Schritt 3: Wählen Sie die Ihnen benötigten Daten aus und exportieren die Datenergebnisse.

• Klicken Sie auf „positions” vom Tab „Tree” und extrahieren Sie die Daten wie „Name”„display_job id”„business Unit”.

Daten Scraping von JSON-Links_07

 

Hier ist die Datenausgabe als Beispiel:
Daten Scraping von JSON-Links_08

 

 

 

Autor*in: Das Octoparse Team
Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen