Warum ist Cloud-Datenextraktion in der Vorschau gut aber in einer Ausführung schlecht?
Monday, July 04, 2022 9:58 AMEs gibt die Anlässe, dass unser Workflow perfekt aussehen, aber die Aufgabe hat wenig die gewünschten Daten gescrapt. Warum passierte diese Erscheinung? Warum habe ich schon in der Vorschau die Daten gesehen aber nicht Daten bekommen, wenn die Aufgabe ausführt? Wenn Sie dieses Problem haben, können Sie in diesem Artikel Fehler verstehen und Lösungen finden.
Fehler 1: Der originelle Timeout für „Go to Web Page“ ist nicht genug
Wenn Octoparse die Datenextraktion stoppt, gerade bevor die Website komplett galaden ist, liegt es wahrscheinlich daran, dass Ihre gewünschten Daten nicht geladen sind, bevor Octoparse zur nächsten Aktion gehen.
Lösung
Stellen Sie einen längerenTimeout für die Aktion „Go to Web Page“ ein, um sicherzustellen, dass die Website vor dem nächsten Schritt komplett geladen ist.
Schritt: Klicken Sie auf „Go to Web Page“ im Workflow und stellen Sie einen längeren Timeout für diese Aktion ein, der unter dem Tab „General“ liegt.
Fehler 2: Die gewünschten Seitendaten haben eine Ladeverzögerung.
Wenn die Zielseite komplett geladen ist, währen Octoparse noch stoppt und nichts extrahiert, erscheint es vielleicht wegen einer Ladeverzögerung. Viele Websites verwenden JSON zur Aktualisierung der Websites, was die Ladeverzögerung von den Elemente der Seite verursacht.
Lösung
Stellen Sie nach der Aktion „Go to Web Page“ eine Wartezeit für die nächste Aktion ein.
Schritt: Klicken Sie auf die Aktion, die neben „Go to Web Page“ im Workflow steht. Dann stellen Sie „Wait before action“ unter dem Tab „Options“. (Schauen Sie diesen Artikel an, um die ganze Anleitung zu behalten, wie man die Wartezeit einstellen könnte.)
Fehler 3: Die Website verwendet Lazy Loading, um ihre Geschwindigkeit des Ladens zu erhöhen.
Wenn die Zielseiten die sichtbaren Daten nicht mehr laden können, bevor Sie scrollen, liegt es daran, dass es Lazy Loading darin gibt. Da müssen wir Octoparse mitteilen, dass es nach dem Laden die Website scrollen sollte.
Lösung
Scrollen Sie nach dem Laden der Seite nach unten.
Schritt: Klicken Sie auf „Go to Web Page“ im Workflow und checken Sie „Scroll down the page after it is loaded“ unter dem Tab „Options“. Modifizieren Sie nach Ihrer Bedürfnissen die detallierte Einstellung.
Fehler 4: Der eingestellte AJAX Timeout ist nicht lang genug.
Wenn Ihr Workflow ein „Click Item“ hat, um die Daten unter dem Button „show more“ oder „load more“ zu erhalten, sollten Sie einen AJAX Load Timeout einstellen, der für die komplette Aktualisierung der Daten lang genug ist.
Lösung
Stellen Sie einen längeren AJAX Timeout für Ihres „Click Item“ ein.
Schritt: Klicken Sie auf „Click Item“ in Ihrem Workflow, überprüfen Sie „Load with AJAX“ und dann stellen Sie einen längeren Timeout ein.
Wenn Sie Probleme bei der Datenextraktion haben, oder uns etwas Vorschlägen geben möchten, reichen Sie bitte uns eine Anfrage ein. Erfüllen Sie eine Anfrage hier. Oder Sie können durch E-Mail (support@octoparse.com) uns kontaktieren.
Autor*in: Das Octoparse Team