Alle Kollektionen
Octoparse 101
Lektion 0: Grundlagen von Octoparse
Lektion 0: Grundlagen von Octoparse
Vor über einer Woche aktualisiert

Hallo zusammen! Herzlich Willkommen bei der brandneuen Octoparse-Version 8.5! Wir haben die wichtigste Veränderung der neuen Version zusammengefasst, um Ihnen zu helfen, die neue Funktionen zu entdecken und die Datenextraktion zu vereinfachen.


Nachdem Sie alle Einführungslektionen durchlaufen haben, werden Sie Octoparse 8.6 in- und auswendig kennen und in der Lage sein, Daten aus den meisten Webseiten mit Octoparse zu extrahieren. Es dauert etwa 30 bis 60 Minuten, bis Sie alle Lektionen durchgelesen haben. Viel Spaß!


Beginnen wir mit einer Einführung in das Interface und die Kernfunktionen der Software.


1. Das Interface

Sobald Sie sich bei Octoparse anmelden, werden Sie zwei Hauptbereiche finden: die Startseite und die Seitenleiste.

1.1 Die Startseite

Oben auf der Seite befindet sich eine Suchleiste, in die Sie die URL(s) der Zielwebseite eingeben können, um mit der Erstellung einer Aufgabe zu beginnen.

durch URL Aufgabe erstellen

Oder Sie können auch den Namen einer Webseite eingeben, um ein vorgestelltes Template zu finden. Wenn es eines gibt, würde Octoparse alle entsprechenden Templates anzeigen.

Name suchen

Sie können auch auf einige der beliebtesten Scraping-Vorlagen und Tutorials auf der Startseite zugreifen.

Populäre Templates

In der rechten unteren Ecke befindet sich eine Support-Schaltfläche. Sie können nach einem Tutorial suchen oder einen kurzen Chat mit dem Support-Team starten, wenn Sie Hilfe benötigen.

1.2 Das Seitenleistenmenü

Das Seitenleistenmenü auf der linken Seite enthält alles, was Sie zur Navigation in Octoparse benötigen.

  • + Neu: Eine neue Aufgabe erstellen/importieren oder neue Aufgabengruppen erstellen.

  • Dashboard: Der einzige Ort, um alle Ihre Scraping-Aufgaben zu verwalten. Bearbeiten, löschen, umbenennen und organisieren Sie alle Aufgaben in Ihrem Konto. Sie können auch bequem alle Aufgaben ausführen, stoppen oder planen.

  • Template: Darin können Sie alle verfügbaren Vorlagen finden.

Templates

1.3 Der Arbeitsbereich

Der Arbeitsbereich ist der Ort, an dem Sie Ihre Aufgaben erstellen werden. Er ist in fünf Hauptbereiche unterteilt, wobei jeder Bereich einen bestimmten Zweck erfüllt.

Arbeitsbereich
  • Der Built-in Browser: Sobald Sie die URL der Zielwebseite eingetreten haben, wird die Webseite in dem Built-in Browser geladen. Sie können die Webseite im Browse-Modus durchsuchen oder im Select-Modus die gewünschten Daten extrahieren.

  • Tipps: Octoparse verwendet Smart Tipps, um während des Extraktionsprozesses mit Ihnen zu "sprechen", damit Octoparse Sie beim Prozess der Aufgabenerstellung führen kann.

  • Der Workflow: Wenn Sie fortfahren, mit der Webseite zu interagieren, z.B. eine Webseite zu öffnen und auf ein Seitenelement/einen Button zu klicken, wird der gesamte Prozess automatisch in Form eines Workflows definiert.

  • Einstellungen: Settings-Optionen für die Aktionen in dem Workflow werden nach Ihrer Wahl einer Aktion gezeigt werden.

  • Datenvorschau: Lassen Sie sich eine Vorschau der ausgewählten Daten anzeigen. Sie können die Datenfelder auch umbenennen oder die nicht benötigten entfernen.


2. Kernfunktionen

2.1 Aufgabenvorlagen

Aufgabenvorlagen sind für Benutzer*innen vorgefertigte Aufgaben, mit denen Benutzer*innen Daten durch Eingabe einfacher Parameter wie URL(s) oder Schlüsselwörter erhalten können. Derzeit gibt es über 100 Vorlagen für die meisten gefragten Webseiten. Man braucht nicht, selbst eine Aufgabe zu erstellen und keine technischen Kenntnisse sind dabei erforderlich. Wählen Sie einfach eine Vorlage aus, die Sie brauchen, und prüfen Sie die Beispieldaten, um zu sehen, ob sie die gewünschten Daten erhalten können, dann los geht’s!

2.2 Scrapen Daten mit fortgeschrittenem Modus

Im Gegensatz zu Aufgabenvorlagen, bei denen alles bereits voreingestellt ist, ist der Octoparse fortgeschrittene Modus ein hochflexibler und leistungsstarker Scraping-Modus, der es Ihnen ermöglicht, eine Ihren speziellen Anforderungen entsprechenden Scraping-Aufgabe zu erstellen. Der fortgeschrittene Modus ist genug, um komplizierte Webseiten zu scrapen, z.B. Seiten mit JavaScript, AJAX oder andere dynamische Webseiten.

Das Erstellen Ihrer eigenen Scraping-Aufgabe mit dem fortgeschrittenen Modus ist nicht kompliziert und einschüchternd. Mit dem neuen Auto-Detect-Algorithmus erkennt Octoparse automatisch Elemente auf einer Webseite und generiert empfohlene Aufgabeneinstellungen wie das Extrahieren der Liste und das Weitergehen zur nächsten Seite.

Scrapen Daten mit fortgeschrittenem Modus

Zusätzlich zu den automatisch erkannten Daten können Sie die Aufgabeneinstellungen jederzeit manuell bearbeiten oder eine Aufgabe selbst erstellen, indem Sie den Schritt der automatischen Erkennung überspringen können.

Aufgabe bearbeiten

Wenn Sie mit den automatisch erkannten Daten zufrieden sind, speichern Sie einfach die Einstellungen und Octoparse wird den Aufgaben-Workflow automatisch generieren. Sie können dem Workflow bei Bedürfnissen zusätzliche Schritte hinzufügen oder die Aktionen manuell ändern, wenn es nötig ist.

Octoparse bietet eine leistungsstarke Cloud-Plattform für Premium-Benutzer (Standard oder höher), um Ihre Aufgaben 24/7 auszuführen. Wenn Sie eine Aufgabe mit Cloud-Extraktion ausführen, läuft sie in der Cloud mit mehreren Servern unter Verwendung unserer IPs. Sie können die App oder Ihren Computer herunterfahren, während die Aufgabe ausgeführt wird. Sie müssen sich keine Gedanken über Hardware-Einschränkungen machen.

Die extrahierten Daten werden in der Cloud gespeichert und können jederzeit abgerufen werden. Erweiterte Funktionen wie automatische IP-Rotation, Aufgabenplanung, Beschleunigung der Extraktion und die Octoparse-API sind die Teile des Octoparse-Cloud-Services.


Hat dies Ihre Frage beantwortet?