Sie folgen jetzt einem Tutorial für die neueste Version von Octoparse. Wenn Sie zur Zeit eine ältere Version verwenden, empfehlen wir Ihnen kräftig es, ein Upgrade zu machen, weil sie schneller, leichter und stärker ist! Herunterladen und Installierung eines Upgrades hier, wenn Sie nicht so bereits machen!

Realtor ist eine Webseite, wo Sie Immobiliendaten für Verkaufen suchen, neue Häuser entdecken, Hypotheken einkaufen und Vermögensaufzeichnungen finden können.

In diesem Tutorial zeigen wir Ihnen, wie Sie Immobiliendaten von Realtor.com scrapen können. Weil diese Webseite Anti-Scraping-Technik hat, müssen wir es sicherstellen, dass wir sie nicht so schnell scrapen sollten.

Wir werden Daten wie den Titel, die Lage, den Preis, die Bewertung usw. von der Haus-Detailseite scrapen. Zum Üben können Sie die URL im Tutorial verwenden:

https://www.realtor.com/realestateandhomes-search/Tallassee_AL

Wir werden 2 Aufgaben erstellen, um die Daten auf den Detailseiten zu erhalten.

Hier sind die wichtigsten Schritte in diesem Tutorial:

Aufgabe 1: Extrahieren alle URLs der Detailseiten auf den Suchergebnisseiten [Aufgabendatei hier herunterladen]
Aufgabe 2: Sammeln Produktinformationen aus den gescrapten URLs [Aufgabendatei hier herunterladen]

Aufgabe 1: Extrahieren alle URLs der Detailseiten auf den Suchergebnisseiten

1. „Go To Web Page“ - Öffnen die Ziel-Webseite

Geben Sie die Beispiel-URL ein und klicken Sie auf „Start“.

2. Erstellen ein „Paginierung-Loop“- Scrapen alle Ergebnisse von mehreren Seiten

Scrollen Sie nach unten und klicken auf den Button „Nächste“ auf der Webseite.
Klicken Sie auf „Loop click single URL“ in Tipps-Platte.

Octoparse stellt automatisch die AJAX-Wartezeit als 3 Sekunden ein. Sie können die Wartezeit je nach Ihren lokalen Internet-Bedingungen ändern (Klicken Sie hier, wenn Sie mehr über AJAX erfahren möchten: Umgang mit AJAX).

Stellen Sie AJAX-Timeout als 10 Sekunden ein.

Doppelklicken Sie auf den Schritt „Pagination" im Workflow.
Kopieren Sie den überarbeiteten XPath für den Button „Nächste Seite“ und fügen ihn ein: //a[@aria-label="Go to next page"][not(contains(@class, "disabled"))]

3. Erstellen ein "Loop Item"- Scrapen die URLs aller Ergebnisse

Klicken Sie auf das Bild des ersten Item in der Liste.
Klicken Sie auf das Tag „A“ am unteren Rand von „Tipps“ („A“ Tag definiert einen Hyperlink, der verwendet wird, um von einer Seite zu einer anderen zu verlinken)
Klicken Sie auf „Select All“ in „Tipps“.
Wählen Sie „Extract the URLs of the selected elements“.

Wir bemerken, dass einige Elemente nicht ausgewählt werden, dewegen müssen wir das den XPath von dem „Loop-Item“ modifizieren.

Klicken Sie auf „Loop Item“.
Ändern Sie „Loop Mode“ von „Fixed list“ auf „Variable list“.
Geben Sie den XPath in das Textfeld ein: //ul[@data-testid='property-list-container']/li
Klicken Sie auf „Apply“ zur Speicherung.

Gehen Sie zur „Extract Data“ und modifizieren Sie den URL-XPath.
Stellen Sie den XPath als ein: //a[@rel="noopener"]

4. Führen Sie Ihre Aufgabe aus - Erhalten Sie die gewünschten Daten

Klicken Sie auf „Save“.
Klicken Sie auf „Run“.
Wählen Sie „Run on your device“, um die Aufgabe mit Ihrem lokalen Gerät auszuführen, oder Wählen „Run in the Cloud“, um die Aufgabe auf unseren Cloud-Servern auszuführen (nur für Premium-Benutzer).

Hier sind die Beispieldaten.

Aufgabe 2: Sammeln Immobiliendaten aus den gescrapten URLs

1. Geben URLs ein - Öffnen die Detailseiten

In Aufgabe 1 haben wir eine Liste von URLs erhalten.

Klicken Sie auf „+ New“, um eine neue Aufgabe in „Advanced Mode“ zu erstellen.

Wählen Sie „Import from task“, um die URLs aus Aufgabe 1 zu erhalten.

Tipps!

Es gibt 4 Möglichkeiten, URLs einzugeben. In diesem Tutorial verwenden wir die Methode „Import from task“. Beachten Sie bitte, dass die Methode funktioniert, nur wenn die übergeordnete Aufgabe in der Cloud ausgeführt wird. Wenn wir das Datenergebnis aus einem lokalen importieren, werden in diesem Fall nur 100 Zeilen Daten importiert. Lesen Sie bitte diese Anleitung, wenn Sie mehr über das Importieren von URLs erfahren möchten: Extraktion der URLs.

Nachdem Sie auf den Button „Save“ geklickt haben, sehen Sie, dass ein Schritt namens „Loop URLs“ automatisch im Workflow generiert wird.

2. Extrahieren Daten - die Daten für die Extraktion auswählen

Klicken Sie auf die Elemente, die Sie extrahieren möchten.
Wählen Sie „Extract text/URL/image URL of the selected element“ in Tipps-Platte.

Klicken Sie doppelt auf jedes Feld, um die Felder umzubenennen.

3. Verfeinern die Datenfelder

Um die Daten auf der Webseite genau zu lokalisieren, passen wir den XPath an.

Klicken Sie auf „More(...)“ und wählen Sie „Customize XPath“.
Geben den überarbeiteten XPath in das Textfeld ein und klicken auf „Apply“, um zu speichern.

Hier sind die überarbeiteten XPaths für einige gängige Datenfelder:

Präsentiert_bei: //div[contains(text(),'Presented')]/following-sibling::span[2]
Preis: //div[@data-testid="list-price"]
Einrichtungen: //div[@data-testid="property-meta"]
Adresse: //div[@data-testid="address"]
Vermögen_Typ: //div[contains(text(),'Property')]/following-sibling::div[1]
Zeit_für_Makler: //div[contains(text(),'Time on realtor.com')]/following-sibling::div[1]
Preis_pro_sqft: //div[contains(text(),'Price per sqft')]/following-sibling::div[1]
Jahr_eingebaut: //div[contains(text(),'Year Built')]/following-sibling::div[1]

4. Erstellen Wartezeit - verlangsamen das Scraping

Da die Webseite Anti-Scraping-Technik verwendet hat, müssen wir eine Wartezeit erstellen, um die Geschwindigkeit des Scraping zu verlangsamen, sonst würde Ihr IP blokiert.

Klicken Sie auf „Extract Data“.
Gehen Sie zur „Options“.
Klicken Sie auf „Wait before action“ und stellen Sie die Zeit als 7-10s ein.
Klicken Sie auf „Apply“ zur Speicherung.

5. Führen Sie Ihre Aufgabe aus - Erhalten die gewünschten Daten

Klicken Sie auf „Save“.
Klicken Sie auf „Run“.
Wählen Sie „Run on your device“, um die Aufgabe mit Ihrem lokalen Gerät auszuführen, oder wählen Sie „Run in the Cloud“, um die Aufgabe auf unseren Cloud-Servern auszuführen (nur für Premium-Benutzer).

Hier sind die Beispieldaten.

Verwandte Artikel

Scraping der Artikel von Medium

Scraping der Hotel-Infos von Airbnb

Scraping der Daten von Walmart

Scraping der Kundenbewertungen von Tripadviser

Scraping der Stellenanzeigen von Glassdoor