Alle Kollektionen
Octoparse Performance
Daten Scraping nach dem Anmelden
Daten Scraping nach dem Anmelden
Vor über einer Woche aktualisiert

Wenn Ihre Zieldaten hinter eines Anmeldungsprozess liegen, ist es möglich, mit Octoparse die Daten auszulesen. In diesem Tutorial erfahren Sie, wie die Daten nach dem Einloggen zu scrapen sind.

Es gibt zusammen drei Methoden:

  1. Integration des Anmeldeprozesses im Workflow

  2. Speicherung der Website-Cookies im Workflow

  3. Vereinfachte Cookie-Speicherung durch einmalige Anmeldungsdateneingabe


Methode 1: Integration des Anmeldeprozesses im Workflow

Man kann direkt durch Hinzufügen von zwei Schritte seine Anmeldungsinfo bei Octoparse speichern. Wenn Sie diese Methode nehmen möchten, sollte diese Webseite mindestens zwei folgenden Anforderungen erfüllen:

  • Der Anmeldevorgang sollte in die Website eingebettet sein und nicht in Form eines Pop-up-Fensters, das unabhängig von der Website bestehen kann.

  • Das Eingabefeld sollte anklickbar sein.

Hier nennen wir die Blog-Seite von Octoparse als ein Beispiel:

Schritt 1: Text eingeben - um das Kasten auszuwählen

  • Klicken Sie auf das Textfeld für die Eingabe des Benutzernamens oder der Email-Adresse auf der Webseite.

  • Wählen Sie „Text eingeben” aus den Aktionstipps.

Text eingeben
  • Geben Sie Ihr Konto (Benutzername oder E-Mail) in den erscheinten Kasten ein und danach wählen Sie „Bestätigen“.

  • Befolgen Sie die gleichen Schritte zur Eingabe des Passworts.

Schritt 2: Button anklicken - um sich bei Website einzuloggen

Sie können eine der beiden folgenden Möglichkeiten wählen, um Ihre Anmeldung zu bestätigen.

1. Wählen Sie „Einloggen“-Button und dann klicken Sie „Auf Button klicken“ an, um sich einzuloggen.

Button anklicken

2. Kreuzen Sie die Option „Drücken Sie nach der Eingabe die Eingabe-/Return-Taste“ unter Optionen an. Passen Sie dann die Wartezeit und das AJAX-Timeout für diesen Schritt an, um genuge Zeit zum Laden zu verlassen.

Drücken-Button

Octoparse hat sich nun erfolgreich auf der Website angemeldet!

Notiz: Cookies löschen

Da alle Webseiten handeln die Cookies ganz unterschiedlich, beginnen Sie jedes Mal mit den Anmeldeschritten, wenn die Aufgabe ausgeführt wird. Damit kann es sicherzustellen ist, dass der Workflow immer funktioniert. Dazu sollen Sie alle Cookies löschen, bevor die Login-Website lädt. Wenn die Webseite Ihre hervor eingegebenen Informationen schon „vergessen” hat, dann können Sie nur die neuen hinzufügen.

  • Klicken Sie auf „Zur Webseite“ und wählen „Optionen“.

  • Selektieren Sie „Löschen Sie den Cache, bevor die Website lädt“.

  • Klicken Sie auf „Anwenden“ zur Speicherung.

Cache löschen

Methode 2: Speicherung der Website-Cookies im Workflow

In den meisten Fällen können Sie den Arbeitsablauf optimieren, indem Sie die Cookies nach der Anmeldung in der Aufgabe speichern. Auf dieser Weise sendet Octoparse die gespeicherten Cookies an die Webseite, auf der Ihre Informationen behaltet werden können. Es ist auch eine gute Chance, dass sich eine Website immer „Sie“ erinnern und die Login-Schritte überspringen.

  • Schalten Sie zuerst den Browser-Modus an. Dann können Sie sich genauso anmelden, wie Sie es auf einer normalen Webseite machen.

Browse Modus
  • Wenn das Einloggen schon fertig gemacht ist, klicken Sie auf „Optionen” unter „Zur Webseite” und wählen „Cookie verwenden” sowie „Verwenden Sie Cookie aus dieser aktuellen Seite”.

Cookie aus Seite speichern
  • Klicken Sie auf „Anwenden”, um Ihre Einrichtung zu speichern.

  • Damit wird Ihre Anmeldensaktion bei Octoparse behaltet und übersprungen, wenn der Crawler das nächste Mal läuft.

Notiz:

1. Ein gespeicherter Cookie hat auch Ablaufszeit.

Jedes Cookie hat eine Laufzeit. Die einen laufen nach einer langen Zeit ab, aber die anderen sind nur wirksam bevor der Browser abgeschaltet wurde. Bei Octoparse ist es der Fall auch nicht zu vermeiden und das Cookie wird damals nicht funktionieren. Deswegen sollen Sie Ihre Einloggensstellung und Cookiesumstand zuerst durchschauen, bevor Sie Ihre Aufgabe laufen lassen.

2. Keine Angst vor Datenleck. Bei Octoparse sind Ihre Informationen gut geschützt.

  • Wenn Sie in Octoparse Ihr Passwort eingeben, ist es nur in Ihrem eigenen Konto zugänglich.

  • Wenn eine Aufgabe exportiert wird, wird das in der Aufgabe gespeicherte Passwort automatisch entfernt.

  • Alle gespeicherten Anmeldeinformationen werden aus Ihrem Konto entfernt, sobald die Aufgabe gelöscht wird.

3. Manuelle Captcha-Eingabe während der lokalen Extraktion.

Wenn ein Captcha angetroffen wird, können Sie das Captcha manuell eingeben, wenn Sie die Aufgabe lokal ausführen. Aber in der Cloud-Extraktion ist die Aufgabe mit Captcha nicht unterstützt.

Octoparse kann sich automatisch mit einigen Arten von Captchas umgehen, Sie können beim Tutorial „Auflösung des Captcha“ lernen.


Methode 3: Vereinfachte Cookie-Speicherung durch einmalige Anmeldungsdateneingabe

Außerdem man im Workflow einen Cookie-Schritt einstellt, kann man auch direkt durch „Cookies der Anmeldung“ neben „Browser“-Button Anmeldungsinfos behalten.

Button oben anklicken
  • Klicken Sie auf „Cookies der Anmeldung“.

  • Loggen Sie sich bei Ihrer Ziel-Webseite wie normal ein.

  • Dann klicken Sie auf „Anmelden“, um Ihre Cookie zu speichern.

Hat dies Ihre Frage beantwortet?