Alle Kollektionen
FAQ
Wie kann ich Daten in Cloud schneller scrapen?
Wie kann ich Daten in Cloud schneller scrapen?
Vor über einer Woche aktualisiert

Sie folgen jetzt einem Tutorial für die neueste Version von Octoparse. Wenn Sie zur Zeit eine ältere Version verwenden, empfehlen wir Ihnen kräftig es, ein Upgrade zu machen, weil sie schneller, leichter und stärker ist! Herunterladen und Installierung eines Upgrades hier, wenn Sie nicht so bereits machen!

Octoparse bietet eine Cloud-Plattform mit vielen Cloud-Servern, auf denen Sie Ihre Aufgaben 24/7 ausführen können und die bis zu 6–20 Mal schneller als die Lokal-Datenextraktion sind. Aber manchmal kann die Geschwindigkeit der Cloud nicht so zufriedenstellend sein. In diesem Tutorial erklären wir sowohl das Prinzip der Beschleunigung in der Cloud als auch die Methode vom Überarbeiten einer Aufgabe, damit sie schneller laufen kann.


1. Das Prinzip der Beschleunigung in der Cloud

Die Geschwindigkeit der Cloud in Octoparse erhöht sich, indem eine Aufgabe in ein paar Unteraufgaben aufgeteilt wird und diese Unteraufgaben mit zahlreichen Cloud-Servern durchgeführt werden. Eine Unteraufgabe benötigt einen Cloud-Server zur Ausführung, daher hängt die Geschwindigkeit davon ab, wie viele Cloud-Server Ihr Konto hat und ob die Aufgabe aufgeteilt werden kann.

Der Standard-Plan hat 6 Cloud-Server, während der Profi-Plan 20 hat. Sie können problemlos auf einen höheren Tarif aufsteigen, um die Geschwindigkeit zu erhöhen. Wenn Sie aber Ihren Plan nicht ändern wollen, ist es wichtig, die Aufgabe teilbar zu erstellen.


2. Welche Art von Aufgaben können aufgeteilt werden?

Wenn Sie es versuchen, irgendeine Art der Loop Items in Octoparse zu erstellen, würde ihm Octoparse basierend auf den ausgewählten Elementen und deren Interaktion mit der allgemeinen Webseitenstruktur automatisch einen Schleifenmodus zuweisen.

loop item

Es gibt in Octoparse drei Arten von teilbaren Schleifenmodi:

  • Liste der URLs

  • Liste des Textes

  • Feste Liste

Modus 1 Liste der URLs

Eine URL-Schleife wird verwendet, wenn Sie eine Extraktionsaufgabe mit mehr als einer URL starten. Dies ist besonders praktisch, wenn Sie Daten auf mehreren Webseiten extrahieren, welche die gleiche Seitenstruktur haben. Sie können einfach eine URL-Schleife einrichten, die jede dieser Seiten durchläuft. Octoparse lädt die URLs eine nach der anderen und führt auf jeder Seite die gleichen Extraktionsaktionen aus.

Eine URL-Schleife ist teilbar. Wenn also eine Aufgabe, die mit einer Liste von URLs erstellt wurde, in der Cloud ausgeführt werden soll, wird sie von Octoparse in mehrere Unteraufgaben aufgeteilt, um eine schnellere und effektivere Extraktion zu realisieren.

Um mehr über die Liste der URLs zu erfahren, lesen Sie bitte Extraktion von Eingabe einer Stapel URLs.

list of URLs

Modus 2 Liste des Textes

Eine Textlistenschleife funktioniert ähnlich wie die URL-Listenschleife, aber anstatt eine Liste von URLs zu durchlaufen, wird nun eine Liste von vordefinierten Textwerten durchlaufen.

Weitere Informationen über die Textlistenschleife finden Sie in diesem Artikel: Funktionvorstellung von „Enter Text“.

text list

Modus 3 Feste Liste

Viele Webseiten, z.B. E-Commerce-Webseiten, organisieren den Inhalt der Webseite (z.B. Produktinformationen) oft als eine Sammlung von wiederkehrenden Elementen mit einem gemeinsamen HTML-Muster.

Bei der Erfassung solcher Elemente, z.B. der Produkttitel, würde Octoparse alle Elemente erkennen, die dasselbe HTML-Muster aufweisen, und eine Sammlung von XPath(s) generieren, um alle Elemente derselben Art zu lokalisieren.

fixed list

Neben diesen 3 Arten von teilbaren Schleifenmodi gibt es noch 2 weitere Schleifenmodi, die nicht teilbaren sind: Einzelelementschleife und variable Listenschleife. Da beide Schleifenmodi nur einen einzigen XPath beinhalten, können sie nicht zur Beschleunigung weiter in Unteraufgaben aufgeteilt werden.


3. Wie kann ich meine Aufgabe teilbar sein lassen?

Fall 1: Für eine Aufgabe mit variabler Liste zum Klicken auf eine Liste von Elementen, können wir:

  • sie in eine feste Liste umwandeln, indem die XPaths für jedes Element auf der Seite aufgelistet werden

  • zuerst nur die URLs der Elemente scrapen, ohne auf die Seiten zu klicken, und dann eine andere Aufgabe mit den gescrapten URLs erstellen, um die detaillierten Daten zu erhalten. Hier ist ein Beispiel: Scrapen Immobiliendaten von Realtor.com.

Fall 2: Für die Aufgaben, die aus vielen Seiten scrapen, können wir die URLs für jede Seite verwenden, um den Workflow einzurichten: Erstellung einer Aufgabe mit einer Reihe von URLs.

Hat dies Ihre Frage beantwortet?