Crunchbase ist eine Website, auf der man Geschäftsinformationen über verschiedene Unternehmen finden kann. Sie bietet Informationen wie Investitionen und Finanzierungsinformationen, Gründungsmitglieder und Personen in Führungspositionen, Fusionen und Übernahmen, Nachrichten, Branchentrends und so weiter.

In diesem Tutorial zeigen wir Ihnen, wie Sie Unternehmensinformationen von Crunchbase mit einer URL der Suchergebnisseite scrapen können.

In diesem Fall können Sie einfach unsere "Aufgabenvorlage" für Crunchbase verwenden. Sie brauchen keine Aufgabe selbst zu konfigurieren, sondern nur einige Parameter einzugeben. Für weitere Details können Sie hier nachsehen: Aufgabenvorlagen

Crunchbase zeigt nur die ersten 5 Suchergebnisse für kostenlose Benutzer an. Stellen Sie bitte sicher, dass Sie einen Pro-Account bei Crunchbase haben, bevor Sie mit der Aufgabenkonfiguration anfangen.

Wir werden zuerst in Aufgabe 1 die URLs der Unternehmen in der Detailseite scrapen, dann in Aufgabe 2 Daten wie den Firmennamen, den Standort, die Einführung und Informationen zur Finanzierung scrapen.

Zum Üben können Sie die URL im Tutorial verwenden: https://www.crunchbase.com/discover/organization.companies/9472f4f3410c0010e2780a286ce97f9e

Hier sind die wichtigsten Schritte in diesem Tutorial:

Aufgabe 1: Extrahieren alle URLs der Detailseiten auf den Suchergebnisseiten [Aufgabendatei hier herunterladen]
Aufgabe 2: Scrapen die Produktinformationen von gescrapten URLs [Aufgabendatei hier herunterladen]

Aufgabe 1: Extrahieren der Detailseiten-URLs auf den Suchergebnisseiten

1. „Go To Web Page“ - Öffnen die Ziel-Webseite

Geben Sie die Beispiel-URL ein und klicken Sie auf „Start“.

2. Loggen Sie sich auf der Webseite ein und speichern Sie Cookies

Klicken auf den oben rechtes Button, um in den Browser-modus zu wechseln.

Klicken Sie, um die Einstellungen von „Go to Web Page“ zu öffnen.
Klicken Sie zuerst auf „Use cookie“ und danach auf „Use cookie from the current page“.
Klicken Sie auf „OK“, um es zu speichern.

3. Detektieren automatisch die Daten von der Webseite - Erstelleneinen Workflow

Schalten Sie den „Browser-Modus“ aus.
Klicken auf „Auto-detect web page data“ und warten Sie, bis die Detektion abgeschlossen ist.

Löschen Sie unerwünschte Felder in der Datenvorschau.

Kreuzen Sie auf „Add a page scroll“ nicht an und klicken Sie dann auf „Create workflow“ aus der Tipps-Platte.

Octoparse wird ein Loop-Item im Workflow generieren:

4. Wählen den Unternehmenslink zum Scrapen aus

Wählen den ersten Firmennamen auf der Webseite aus (die erste Zeile sollte rot hervorgehoben sein).
Klicken auf das Tag „A“ in Tipps.
Wählen „Extract the URL of the selected link“.

Wählen Sie weitere Informationen der ersten Firma aus, um den Text zu scrapen.
Benennen die Felder bei Bedarf um.

5. Erstellen Paginierung - ExtrahierenDaten von mehreren Seiten

Klicken Sie auf den Button „Weiter“ auf der Webseite.
Wählen Sie „Loop click single element“.
Stellen Sie eine geeignete AJAX-Warte-Zeit ein.

6. Speichern und starten, um die Aufgabe auszuführen und Daten zu erhalten

Klicken Sie auf „Start Extraction“ auf der oberen linken Seite.
Wählen Sie „Local Extraction“, um die Aufgabe auf Ihrem Computer auszuführen.

Nach dem Scraping der Daten können Sie die Daten in eine Excel-Datei exportieren.

Aufgabe 2: Scrapen die Produktinformationen von gescrapten URLs

1. Geben die gescrapten URLs ein - Öffnen die Detailseiten

Klicken Sie auf „+ New“, und wählen „Advanced Mode“.
Geben Sie die gescrapten URLs aus Aufgabe 1 ein.

2. Extrahieren Daten - Wählen die Daten für die Extraktion aus

Wählen Sie den Firmennamen auf der Webseite.
Wählen Sie „Extract text of the selected element“.
Wiederholen die obigen Schritte, um alle Daten zu extrahieren, die Sie benötigen.

Benennen Sie die Felder bei Bedarf um.

3. Modifizieren den XPath der Felder

Die Orte der Finanzierungsinformationen verändern auf verschiedenen Firmenseiten. Zum Beispiel enthält die Webseite der Firma Apple Felder wie „Number of Acquisitions“ und „Stock Symbol“, aber die befinden sich nicht auf der Seite der Firma Shine. Außerdem befindet sich manche gleichen Felder wie „Total Funding Amount“ nicht an der gleichen Position auf verschiedene Webseiten.

Deswegen müssen wir den XPath dieser Felder ändern, um die auf den verschiedenen Webseiten richtig zu lokalisieren. Wir nehmen das Feld "Total Funding Amount" als Beispiel. Solange der Titel sich nicht ändert, können wir das Feld immer durch den Titel lokalisieren. Der neue XPath für den "Total Funding Amount" ist //span[contains(text(),'Total Funding')]/../../following-sibling::*[1]

Öffnen Sie die Einstellungen der Aktion „Extract Data“.
Klicken Sie auf „Customize XPath“.
Geben Sie den neuen XPath ein.
Klicken Sie auf „OK“ zur Speicherung.

Der XPath anderer Felder kann auf die gleiche Weise geändert werden.

4. Speichern und starten, um die Aufgabe auszuführen und Daten zu erhalten

Klicken Sie auf „Save“.
Klicken Sie auf „Run“.
Wählen Sie „Run on your device“, um die Aufgabe mit Ihrem lokalen Gerät auszuführen, oder wählen Sie „Run in the Cloud“, um die Aufgabe auf unseren Cloud-Servern auszuführen (nur für Premium-Benutzer).

Hier sind die Beispieldaten.

Verwandte Artikel

Scraping der Geschäftsdetails von Yell (V8.4)

Scraping der Daten von Walmart

Scraping der Immobiliendaten von Realtor.com (V8.4)

Scraping der Jobinfo von Indeed (V8.4)

Scraping der Suchergebnisse von Google Search