Funktionvorstellung von „Open Page“
Vor über einer Woche aktualisiert

Das Erstellen einer Scraping-Aufgabe in Octoparse beginnt immer mit dem Laden einer oder mehrerer Webseiten-URLs im integrierten Browser, mit dem Sie dann den Scraping-Workflow erstellen können. Der spezielle Schritt wird „Go to Web Page“ ganannt.

Es ist bosenders wichtig zu notieren, dass Nutzung direkter Webseite-URLs, z.B. die Produkt-URLs, immer als das Starten des Jobs mit einer generellen Website-Domain URL effizienter sind.

Also, wenn Sie schon gewünschte URLs haben, gehen wir jetzt zusammen los!


Situation 1 Öffnen von einzelner Webseite

Es gibt mehr als eine Methode, dass Sie dem Octoparse mitteilen, wie Octoparse in dem eingebauten Browser ein Website eröffnen soll.

Als Beispiel werden wir die Daten der folgenden Webseite von eBay scrapen:


Methode 1: Auf Startseite von Octoparse

Es gibt eine Suchleiste auf der Startseite. Man kann bei der Nutzung von Suchleiste einschlägige Scraping-Vorlagen suchen oder eine Webseite einer neuen Aufgabe herunterladen, wenn Sie eine spezielle Webseite-URL eingeben.

  • Schritt: Kopieren Sie zuerst die Ziel-URL und dann fügen Sie sie in die Suchleiste ein. Danach klicken Sie auf „Start“ und dann wird eine neue Aufgabe automatisch erzeugt werden.

auf Start klicken


Methode 2: Nutzung von Navigationsmenü der Seite

  • Schritt 1: Klicken Sie auf den Button „+ New“, der auf dem Seitenleistenmenü liegt. Und wählen Sie dann „Advanced Mode“.

Advanced Mode

  • Schritt 2: Fügen Sie die URL im Kasten der Webseite ein und klicken Sie auf „Save“ zu starten.

Save

  • Schritt 3: Im Workflow wird automatisch eine Aktion „Go to Web Page“ erzeugt.

Go to Web Page erzeugen


Methode 3: Hinzufügen eines Schrittes im Workflow

Ein Schritt „Go to Web Page“ kann immer direkt zum Workflow hinzugefügt werden. Es könnte der erste Schritt des Workflows oder die andere Ort im Workflow werden, was davon abhängig ist, wenn Sie die Webseite-URL öffnen möchten.

  • Schritt 1: Bewegen Sie den Cursor zum Workflow und klicken Sie auf das + Zeichen, um „Add a step“ hinzuzufügen, wenn er angezeigt wird.

Add a step hinzufügen

  • Schritt 2: Selektieren Sie „Open Page“ vom Menü.

Open Page selektieren

  • Schritt 3: Dann gehen Sie zum Einstellungsbereich und fügen die URL in den URL-Feld hin. Danach klicken Sie auf „Apply“.

auf „Apply“ klicken


Situation 2 Öffnen von mehreren URLs

Wenn Sie mehrere URLs von Webseiten haben, die eine ähnliche Struktur wie die folgende Webseiten haben, dann brauchen Sie nicht eine Aufgabe nach der anderen zu erstellen, sondern können die URLs auf einmal eingeben.

Es gibt eine gemeinsame Methode zu benutzen, wenn Sie Produktsinformation aus einem Website von E-Commerce scrapen. Zuerst kann eine Scraping-Aufgabe eingebaut werden, um die Webseit-URLs der Produkte zu bekommen. Dann werden diese URLs in einer neuen Aufgabe verwendet, in die Sie die detaillierten Informationen des Produktes erhalten können. Diese URLs könnten sofort hinzugefüht werden und lassen den Prozess von Scraping effizienter werden.


Methode 1: Auf Startseite von Octoparse

  • Schritt 1: Auf der Registerkarte Start können Sie alle URLs kopieren und dann geben Sie sie in die Suchleiste ein. Schließlich klicken Sie auf „Start“.

aus Startseite klicken

  • Schritt 2: Eine Aktion von „Loop URLs“ wird automatisch im Workflow erzeugt. Sie können die Liste von URLs in den URL-Feld, die im Einstellungsbereich liegt, bearbeiten, wenn es benötigt ist.

URL bearbeiten


Methode 2: Nutzung von Navigationsmenü der Seite

  • Schritt 1: Klicken Sie auf den Button „+ New“, der auf dem Menü der Seitenleiste liegt. Dann wählen Sie „Advanced Mode“ aus.

Nutzung von Navigationsmenü der Seite

  • Schritt 2: Kopieren Sie alle URLs und dann geben Sie sie in den Kasten ein. Danach klicken Sie auf „Save“ zu starten.

Wählen Sie, wie die URLs importiert werden. Sie können die URLs in diesen Weisen importieren: manuell, aus einem File wie an XLS-File, aus einer anderen Aufgabe oder Erzeugung einer Liste von URLs im großen Mengen. Überprüfen Sie Batch URL input für mehrere Details.

Wenn Sie die URLs manuell eingeben möchten, stellen Sie sicher, dass Sie per Linie eine URL eingeben oder Sie direkt eine Liste von URLs aus einer Excel-Tabelle kopieren können.

URL manuell eingeben


Methode 3: Hinzufügen eines Schrittes im Workflow

  • Schritt 1: Wenn Sie eine Liste von URLs im Workflow hinzufügen möchten, schwebt Ihr Maus darüber, wo Sie Schritte hinzufügen möchten. Dann klicken Sie auf den Icon „+“.

auf Icon „+“ klicken

  • Schritt 2: Fügen Sie ein Item „Loop“ aus dem Aufklappmenü hinzu. Wenn es bereits hinzugefügt wurde, klicken Sie doppelt darauf, um die URLs einzugeben.

„Loop“ hinzufügen

Unter dem „Loop Item“ wählen Sie den Loop-Modus als Liste der URLs und klicken auf den folgenden angezeigten Button, um die URLs einzugeben.

Art von Loop Item

Speichern Sie die Einstellungen und ein „Loop Item“ mit „Go to Web Page“ wird erzeugt.

Einstellungen speichern


Situation 3 Einstellungen für „Go to Web Page“

Jede Webseite ist unterschiedlich, d.h. Es ist bestimmt, dass zwei Netzwerke keine gleiche Bedeutung haben. Aus diesem Grund sollten Sie immer die Einstellung für den Schritt „Go to Web Page“ verwenden, um sicherzustellen, dass jede spezielle Situation richtig untergebracht ist.

  • Time out: Stellen Sie „Timeout“ ein, wenn die Webseite mehr Zeit als den Alltag zu laden bräuchte.

  • URL: Verändern Sie die URL der Seite, wenn Sie eine unterschiedliche Webseite-URL öffnen möchten.

  • Before page render: Die Optionen, was man machen könnte, bevor die Website geladen ist.

Sie können die Wartezeit einstellen, um den Prozess zu verlangsamen.

Verwenden Sie Cookies, um die Website zu öffnen (z.B. Wenn Anmelden benötigt ist).

Before page render

  • After loading page: Die Optionen, was man machen könnte, nachdem die Website geladen war.

Die am häufigsten modifizierte Einstellung ist die Einstellung von Scrollen. Sie sollen das einstellen, wenn die Seite herunter scrollen muss, um den Inhalt zu laden.

Zuerst stellen Sie die Arten des Scrollens ein, wählen Sie entweder "to the bottom of the page" oder "for one screen".

Dann stellen Sie "Repeats" (wie viel mal Sie herunter scrollen möchten) und "Wait time" (Intervallzeit zwischen jedem Scrollen, damit die neuen Daten nach dem Scrollen geladen werden können) ein.

  • Retry: Nehmen Sie Einstellungen von „Retry“ vor, um die Seite asierend auf einer Reihe von vordefinierten Bedingungen erneut zu laden. z.B. Wenn die jetzige Website (nicht) ein bezeichnetes Element der Seite enthält.

retry


Situation 4 Verfahren für nicht geladene Website

Manchmal kann eine Webseite in Octoparse eingebautem Browser nicht richtig geladen sein. Sie erhalten vielleicht nur eine leere Seite. In diesem Fall können Sie in eine andere User Agent umwandeln und schauen an, ob alls besser wird.

  • Schritt 1: Klicken Sie auf den Icon der Einstellung.

auf Einstellungen klicken

  • Schritt 2: Gehen Sie zum unter „Run Settings“ stehenden „Browser Ver“. Wählen Sie eine verschiedene UA aus dem Aufklappmenü.

Browser Ver

  • Schritt 3: Wenn alles gemacht wird, klicken Sie auf „Save“, um die neuen Eintellungen zu speichern.

neue Einstellung speichern

Um den Effekt der neuen UA zu bestätigen, erfrischen Sie durch den Klick auf den Icon von „Reload Webpage“ Ihre Website. Dann schauen Sie an, ob die Website nun erfolgreich geladen ist.

Reload Webpage

Es gibt viele UA zu wählen, deshalb sollten Sie wahrscheinlich mehrmals versuchen, um eine geeignete UA zu finden, die für Ihre Zielwebsite funktionieren könnte.

Hat dies Ihre Frage beantwortet?