Manchmal kommt es vor, dass die Daten bei Cloud-Daten-Scraping immer fehlen. Hingegen ist aber die Lokal-Erfassung einwandfrei funktioniert. In diesem Artikel erfahren Sie, warum erscheinen die Datenfehlen in Cloud und wie kann man die Fehler beseitigen.

Fehler 1: Die Webseite oder die Daten auf der Webseite ist nicht vollständig geladen.

Die Ladezeit einer Webseite ist von der Internetumgebung und der Reaktionszeit der Webseit abhängig. Bei der Daten-Scraping kostet es normalerweise mehre Zeit in Cloud im Vergleich zu Lokal-Erfassung.

- Lösung 1: Stellen Sie die Zeitspanne(Time-Out) in „Go to Web Page“ auf einen geeigneiten Wert für das vollständige Laden der Webseiten.

- Lösung 2: Richten Sie die Webseite UA mit „Chrome 91.0 for Linux“.

Fehler 2: Cloud-IPs sind aufgrund der hohen Erfassungsfrequenz gesperrt.

Viele Webseiten wenden Anti-Scraping-Techniken an. Die können IP durch Beschränkung der Anstiegszeit und Abfallzeit blockieren,um ihre Daten nicht von außen erfasst zu werden. Deswegen können Sie die Einstellung „ adding wait time“ hinzufügen.

Fehler 3: Ein CAPTCHA muss vor dem Zugriff auf die Webseite gelöst werden

CAPTCHA ist auch eine häufig verwendete Methode von Website zum Schutz vor Scraping. Eine Website kann erkennen, dass es sich um eine Cloud-Server-IP handelt und nicht um eine private IP, die auf die Seiten zugreift. In vielen Fällen wird das CAPTCHA direkt beim Öffnen der ersten Seite der Website angezeigt, wodurch der gesamte Scraping-Prozess unterbrochen wird. Es ist schwierig, das CAPTCHA in der Cloud zu lösen. Wenn Sie diesen Fehler haben, kontaktieren Sie uns bitte und wir werden versuchen, eine Umgehungslösung für Sie zu finden.

Fehler 4: Die Anmeldung auf der Ziel-Website scheitert.

Wenn Sie Ihre Anmeldung oder Cookies in einer Aufgabe speichern, funktioniert es reibungslos bei der Lokal-Scraping. Aber die IPs auf Cloud unterscheidet sich von den im Lokal, deswegen würden die Anmeldung bei der Cloud-Scraping scheitern.

Viele Websites verlangen eine Überprüfung, bevor Sie sich anmelden. Solche Verifizierungen wie CAPTCHA sind bei der Cloud-Scraping nicht auflösbar.

Das gespeicherte Cookie hat immer eine gültige Zeit und funktioniert nicht mehr, wenn es abläuft. Um dieses Problem zu lösen, müssen Sie die Anmeldeschritte erneut durchlaufen, um die aktualisierten Cookies zu erhalten und zu speichern (sehe: „Speicherung und Verwendung von Cookies“).

Fehler 5: Das HTML einer Webseite verändert sich in der Cloud.

Bei Octoparse ist das HTML einer Webseite zuerst zu erkennen, das bestimmt, woraus die Daten kommt. Wie z.B. die Daten aus Amazon untersheideten sich von Amazon.com zu Amazon.de und Amazon.fr . Deshalb stellen Sie es sicher, aus welchem HTML die Daten kommten, bevor Sie eine Daten Scraping in der Cloud ausführen möchten.

Woher weiß ich, was die Ursache für die fehlgeschlagene Cloud-Scraping ist?

Der Octoparse-Cloud-Scrapingsprozess wird nicht wie die lokale Scraping in einem Fenster gezeigt. Es gibt einen einfachen Weg, um zu testen, was in der Cloud passiert: Extrahieren Sie den äußeren HTML-Code der gesamten Website-Seite.

Sie können die folgenden Schritte befolgen, um den HTML-Code zu extrahieren:

Schritt 1: Nachdem Sie die Webseite geöffnet haben, klicken Sie auf eine beliebige Stelle, um „Tips“ auszulösen.

Schritt 2: Klicken Sie auf „Extract the outer HTML of the selected element“ vom Tap „Tips“ und extrahieren Sie dann den äußeren HTML-Code.

Extract the outer HTML of the selected element

Schritt 3: Führen Sie die Aufgabe in der Cloud aus und erhalten Sie den HTML-Code.
Schritt 4: Kopieren Sie die extrahierten Daten in Textform und speichern Sie sie als HTML-Datei.
Schritt 5: Öffnen Sie die HTML-Datei mit Chrome oder Firefox, um zu sehen, wie die Webseite in der Cloud geladet wird.

Schritt 6: Überprüfen Sie die Webseite, um herauszufinden, was der Grund für den Scrapingsfehler ist.

Wenn es auf der Webseite „Access Denied“ anzeigt, das bedeutet, dass die Cloud-IP blockiert ist. Wenn die Webseite gleich aussieht, können Sie den HTML-Code sorgfältig prüfen, um den richtigen XPath für die Scraping zu erhalten.

Verwandte Artikel

Was ist IP-Rotation

Optionen von Anti-Blocking

Daten Scraping nach dem Anmelden

Wechseln IP-Pool für Cloud-Aufgaben