undefined

Scrapen Unternehmensinformationen von Crunchbase  

Wednesday, June 09, 2021 3:14 PM

Crunchbase ist eine Website, auf der man Geschäftsinformationen über verschiedene Unternehmen finden kann. Sie bietet Informationen wie Investitionen und Finanzierungsinformationen, Gründungsmitglieder und Personen in Führungspositionen, Fusionen und Übernahmen, Nachrichten, Branchentrends und so weiter.

In diesem Tutorial zeigen wir Ihnen, wie Sie Unternehmensinformationen von Crunchbase mit einer URL der Suchergebnisseite scrapen können.

In diesem Fall können Sie einfach unsere "Aufgabenvorlage" für Crunchbase verwenden. Sie brauchen keine Aufgabe selbst zu konfigurieren, sondern nur einige Parameter einzugeben. Für weitere Details können Sie hier nachsehen: Aufgabenvorlagen

 

 Crunchbase

 

Crunchbase zeigt nur die ersten 5 Suchergebnisse für kostenlose Benutzer an. Stellen Sie bitte sicher, dass Sie einen Pro-Account bei Crunchbase haben, bevor Sie mit der Aufgabenkonfiguration anfangen.

Wir werden zuerst in Aufgabe 1 die URLs der Unternehmen in der Detailseite scrapen, dann in Aufgabe 2 Daten wie den Firmennamen, den Standort, die Einführung und Informationen zur Finanzierung scrapen.

 

Zum Üben können Sie die URL im Tutorial verwenden: https://www.crunchbase.com/discover/organization.companies/9472f4f3410c0010e2780a286ce97f9e

 

Hier sind die wichtigsten Schritte in diesem Tutorial:

Aufgabe 1: Extrahieren alle URLs der Detailseiten auf den Suchergebnisseiten [Aufgabendatei hier herunterladen]

  1. „Go To Web Page“ - Öffnen die Ziel-Webseite

  2. Loggen Sie sich auf der Webseite ein und speichern Sie Cookies

  3. Detektieren automatisch die Daten von der Webseite - Erstellen einen Workflow

  4. Wählen den Unternehmenslink zum Scrapen aus

  5. Erstellen Paginierung - Extrahieren Daten von mehreren Seiten

  6. Speichern und starten, um die Aufgabe auszuführen und Daten zu erhalten

Aufgabe 2: Scrapen die Produktinformationen von gescrapten URLs [Aufgabendatei hier herunterladen]

  1. Geben die gescrapten URLs ein - Öffnen die Detailseiten

  2. Extrahieren Daten - Wählen die Daten für die Extraktion aus

  3. Modifizieren den XPath der Felder

  4. Speichern und starten, um die Aufgabe auszuführen und Daten zu erhalten

 


Aufgabe 1: Extrahieren der Detailseiten-URLs auf den Suchergebnisseiten

1.„Go To Web Page“ - Öffnen die Ziel-Webseite

  • Geben Sie die Beispiel-URL ein und klicken Sie auf „Start“.

 

 Start

 


2. Loggen Sie sich auf der Webseite ein und speichern Sie Cookies

  • Klicken auf den oben rechtes Button, um in den Browser-modus zu wechseln.

 

 Browser-Modus

 

  • Klicken Sie, um die Einstellungen von „Go to Web Page“ zu öffnen.

  • Klicken Sie zuerst auf „Use cookie“ und danach auf „Use cookie from the current page“.

  • Klicken Sie auf „OK“, um es zu speichern.

 

 OK

 


3. Detektieren automatisch die Daten von der Webseite - Erstelleneinen Workflow

  • Schalten Sie den „Browser-Modus“ aus.

  • Klicken auf „Auto-detect web page data“ und warten Sie, bis die Detektion abgeschlossen ist.

 

 Auto-detect

 

  • Löschen Sie unerwünschte Felder in der Datenvorschau.

 

 Datenvorschau

 

  • Kreuzen Sie auf „Add a page scroll“ nicht an und klicken Sie dann auf „Create workflow“ aus der Tipps-Platte.

 

 Add a page scroll

 

Octoparse wird ein Loop-Item im Workflow generieren:

 

 Loop-Item im Workflow

 


4. Wählen den Unternehmenslink zum Scrapen aus

  • Wählen den ersten Firmennamen auf der Webseite aus (die erste Zeile sollte rot hervorgehoben sein).

  • Klicken auf das Tag „A“ in Tipps.

  • Wählen „Extract the URL of the selected link“.

 

 Extract the URL of the selected link

 

  • Wählen Sie weitere Informationen der ersten Firma aus, um den Text zu scrapen.

  • Benennen die Felder bei Bedarf um.

 

 Felder umbenennen

 


5. Erstellen Paginierung - Extrahieren Daten von mehreren Seiten

  • Klicken Sie auf den Button „Weiter“ auf der Webseite.

  • Wählen Sie „Loop click single element“.

  • Stellen Sie eine geeignete AJAX-Warte-Zeit ein.

 

 AJAX-Warte-Zeit

 


6. Speichern und starten, um die Aufgabe auszuführen und Daten zu erhalten

  • Klicken Sie auf „Start Extraction“ auf der oberen linken Seite.

  • Wählen Sie „Local Extraction“, um die Aufgabe auf Ihrem Computer auszuführen.

 

 ausführen

 

Nach dem Scraping der Daten können Sie die Daten in eine Excel-Datei exportieren.

 


Aufgabe 2: Scrapen die Produktinformationen von gescrapten URLs

1. Geben die gescrapten URLs ein - Öffnen die Detailseiten

  • Klicken Sie auf „+ New“, und wählen „Advanced Mode“.

  • Geben Sie die gescrapten URLs aus Aufgabe 1 ein.

 

 Aufgabe 1

 


2. Extrahieren Daten - Wählen die Daten für die Extraktion aus

  • Wählen Sie den Firmennamen auf der Webseite.

  • Wählen Sie „Extract text of the selected element“.

  • Wiederholen die obigen Schritte, um alle Daten zu extrahieren, die Sie benötigen.

 

 Extract text of the selected element

 

  • Benennen Sie die Felder bei Bedarf um.

 

 Felder umbenennen

 


3. Modifizieren den XPath der Felder

Die Orte der Finanzierungsinformationen verändern auf verschiedenen Firmenseiten. Zum Beispiel enthält die Webseite der Firma Apple Felder wie „Number of Acquisitions“ und „Stock Symbol“, aber die befinden sich nicht auf der Seite der Firma Shine. Außerdem befindet sich manche gleichen Felder wie „Total Funding Amount“ nicht an der gleichen Position auf verschiedene Webseiten.

 

 Modifizieren den XPath der Felder

 

Deswegen müssen wir den XPath dieser Felder ändern, um die auf den verschiedenen Webseiten richtig zu lokalisieren. Wir nehmen das Feld "Total Funding Amount" als Beispiel. Solange der Titel sich nicht ändert, können wir das Feld immer durch den Titel lokalisieren. Der neue XPath für den "Total Funding Amount" ist //span[contains(text(),'Total Funding')]/../../following-sibling::*[1]

  • Öffnen Sie die Einstellungen der Aktion „Extract Data“.

  • Klicken Sie auf „Customize XPath“.

  • Geben Sie den neuen XPath ein.

  • Klicken Sie auf „OK“ zur Speicherung.

 

 OK

 

Der XPath anderer Felder kann auf die gleiche Weise geändert werden.

 


4. Speichern und starten, um die Aufgabe auszuführen und Daten zu erhalten

  • Klicken Sie auf „Save“.

  • Klicken Sie auf „Run“.

  • Wählen Sie „Run on your device“, um die Aufgabe mit Ihrem lokalen Gerät auszuführen, oder wählen Sie „Run in the Cloud“, um die Aufgabe auf unseren Cloud-Servern auszuführen (nur für Premium-Benutzer).

 

 ausführen

 


Hier sind die Beispieldaten.

 Beispieldaten

Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen