Alle Kollektionen
Erweiterte Features
Lokalisierung des Elementes durch nahegelegenen Text
Lokalisierung des Elementes durch nahegelegenen Text
Vor über einer Woche aktualisiert

Sie folgen jetzt einem Tutorial für die neueste Version von Octoparse. Wenn Sie zur Zeit eine ältere Version verwenden, empfehlen wir Ihnen kräftig es, ein Upgrade zu machen, weil sie schneller, leichter und stärker ist! Herunterladen und Installierung eines Upgrades hier, wenn Sie nicht so bereits machen!

Octoparse lokalisiert Daten mit XPath, aber Daten können ihre Position innerhalb der Webseite ändern. Um dieses Problem zu lösen, zeigen wir Ihnen, wie Sie Daten genauer scrapen können, indem Sie die mit einem Text in der Nähe verknüpfen.

Schauen wir uns zunächst ein Beispiel an, bei dem diese Methode nützlich sein kann.

Beispiel

Im obigen Beispiel befindet sich der Wert für „Brand“ neben den Worten „Brand“. In ähnlicher Weise wird der Wert für „Item Weight“ immer neben den Worten „Item Weight“ zu finden sein. Das gleiche Muster sollte für den Rest der Liste gelten.

Während „Item Weight“ vielleicht von der dritten in die vierte Zeile der Liste wechselt, sollte der zugehörige Wert immer daneben zu finden sein. Ein sicherer Weg, die zugehörigen Werte beliebiger Elemente zu finden und zu erfassen, besteht daher tatsächlich darin, zuerst zu suchen, wo die Wörter stehen, und dann die Daten daneben zu lokalisieren. In diesem Beispiel können wir den Wert „10 pounds“ genauer erfassen, indem wir ihn mit dem Text von „Item Weight“ in Verbindung bringen, anstatt ihn direkt auf der Seite zu lokalisieren.

Führen Sie die folgenden Schritte aus, um Daten zu scrapen:

  • Schritt 1: Klicken Sie auf „10 pounds“ auf der Seite, um den Inhalt für „Item Weight“ zu scrapen.

  • Schritt 2: Gehen Sie zur Datenvorschau-Platte und klicken Sie auf „Customize XPath“.

Customize XPath

Schritt 3: Finden Sie den XPath, der auf den Text des Zieldatenfeldes hinweist.

  • Prozess 1: Öffnen Sie jetzt die Seite in Chrome, klicken Sie mit der rechten Maustaste, um die Zieldaten zu inspizieren.

Zieldaten inspizieren

  • Prozess 2: Beachten Sie, dass der Text von „Item Weight“ im <th>-Tag zu finden ist, während der zugehörige Wert im <td>-Tag direkt darunter zu finden ist.

Wert finden

  • Prozess 3: Sobald wir das Muster sehen, können wir einen XPath schreiben, damit wir den Wert von „Item Weight“ finden können und den Ort lokalisieren, an dem wir die Wörter tatsächlich finden: „//th[contains(text(),'Item Weight')]/following-sibling::td[1]“ - Dieser XPath-Ausdruck weist Octoparse an, nach dem <th>-Tag zu suchen, das den Text von „Item Weight“ enthält, und dann das erste <td>-Tag direkt darunter zu finden. Und das ergibt genau das, was wir wollen, den zugehörigen Wert von „Item Weight“.

Wert von „Item Weight“
  • Prozess 4: Geben Sie den neuen XPath in das Textfeld „Matching XPath“ ein, klicken Sie auf „Apply“, um die Einstellungen zu speichern.

Jetzt würde Octoparse immer nach dem zugehörigen Wert von „Item Weight“ suchen, je nachdem, wo der Text „Item Weight“ auf der Webseite angezeigt werden. Wenden Sie die Methode auf ähnliche Felder in der Liste an, können Sie die Möglichkeit des Scraping von falschen Elementen verringern.

Matching XPath

Tipps!

Following-sibling wird sehr oft verwendet, um ein Element zu finden, das sich neben einem anderen bestimmten Element befindet. Erfahren Sie hier mehr über XPATH!

Hat dies Ihre Frage beantwortet?