logo
languageDEdown
menu

Automatisches Extrahieren der Daten aus einer Website in Excel

3 Minuten lesen

Um Daten aus Websites zu extrahieren, können Sie Datenextraktionstools wie Octoparse nutzen. Solche Tools können Daten automatisch aus Websites extrahieren und sie in vielen Formaten wie Excel, JSON, CSV, HTML oder über APIs in Ihrer eigenen Datenbank exportieren. Es dauert nur ein paar Minuten, um Tausende von Datenzeilen zu extrahieren, und das Beste daran ist, dass für den ganzen Prozess keine Codierung erforderlich ist.

Nehmen wir Google-Suche als Beispiel. Angenommen, wir sind an Informationen zum Thema “Smoothie” interessiert und möchten alle Titel, Beschreibungen und URLs aus den Suchergebnissen extrahieren. Um Daten aus Google-Suche zu extrahieren, können Sie eine Web-Scraping-Vorlage verwenden, die ein vorformatierter Crawler ist, der ohne Konfiguration einsatzbereit ist.

Es gibt über 280 Vorlagen, aus denen Sie wählen können. Die Vorlagen reichen von eCommerce-Websites wie Amazon und eBay bis hin zu Social-Media-Websites wie Twitter und Instagram.

Methode 1: Extraktion mit Aufgabenvorlagen

Schritt 1: Wählen Sie eine Vorlage für Web Scraping

Um die Vorlagen zu verwenden, müssen Sie Octoparse auf Ihrem Computer installiert haben. Wählen Sie den Modus “Task Template”. Finden Sie die Web-Scraping-Vorlage für Google Search unter der Kategorie “search engine”.

✅ Schritt 2: Lesen Sie die Anleitung zur Vorlage

Öffnen Sie die Vorlage. Lesen Sie die Anweisungen und die Beispielausgabe, um zu überprüfen, ob Sie mit dieser Vorlage die benötigten Daten erhalten können. Fahren Sie mit dem Mauszeiger über die Datenfelder, um zu sehen, welche Elemente auf den Websites extrahiert werden.

Sehen Sie sich die Parameter an, um zu erfahren, was Sie eingeben müssen. Die Parameter variieren in den verschiedenen Vorlagen, da sie möglicherweise andere Suchbegriffe erfordern, um den Prozess fortzufahren. Es kann eine URL, ein Schlüsselwort, eine Liste von URLs/Schlüsselwörtern, die Anzahl der Seiten sein. In diesem Fall geben wir den Suchbegriff “Smoothie” ein.

✅ Schritt 3: Verwenden Sie die Vorlage und beginnen Sie mit der Extraktion

Klicken Sie auf “use template”, geben Sie “Smoothie” ein und klicken Sie auf “save and run”.

Wenn es sich um ein einmaliges Projekt handelt, können Sie den Crawler einfach auf Ihrem lokalen Computer ausführen.

Wenn Sie hingegen ein laufendes Projekt bearbeiten, können Sie die Extraktion auf der Octoparse-Cloud-Plattform planen.

Wenn die Extraktion abgeschlossen ist, können Sie die Daten in viele Formate exportieren, wie Excel, CSV und txt.

Wir haben Ihnen schon gezeigt, wie Sie eine Web-Scraping-Vorlage verwenden, um Webdaten aus der Google-Suche zu extrahieren. Sie können auch Ihren eigenen Crawler innerhalb weniger Klicks erstellen, indem Sie den “Advanced Mode” verwenden. Es sind zwar einige Konfigurationen erforderlich, aber er ist im Vergleich zu den Vorlagen flexibler.

Methode 2: Benutzerdefinierte Extraktion mit Advanced Mode

✅ Schritt 1: Geben Sie die Ziel-URL ein, um einen Crawler zu erstellen

Wenn Sie versuchen, Daten in großem Umfang zu extrahieren, können Sie eine Liste von bis zu 10.000 URLs in das Feld eingeben.

Da wir in diesem Beispiel nur eine Website scrapen wollen, fügen wir einfach unsere Ziel-URL in das Feld ein und klicken auf “save URL”, um fortzufahren.

✅ Schritt 2: Erstellen das Umblättern

Jetzt hat Octoparse die Webseite erfolgreich in den integrierten Browser geladen. Dann müssen wir eine Paginierung erstellen, indem wir auf die Schaltfläche “Next page” klicken und “Loop click next page” in Aktionstipps wählen. Ein Loop für das Umblättern wird im Workflow generiert.

✅ Schritt 3: Extrahieren der Daten und Starten der Extraktion

Jetzt können wir auf den Titel eines Suchergebnisses klicken und “select all” anklicken. Sobald alle Titel ausgewählt sind, werden sie grün hervorgehoben. Klicken Sie auf “extract text of the selected element”, um alle Titel zu extrahieren. Lassen Sie uns einen Moment innehalten, um einen Blick auf den Arbeitsablauf zu werfen. Wir haben gerade eine Extraktionsschleife innerhalb der Paginierungsschleife erstellt. Der gesamte Extraktionsprozess läuft folgendermaßen ab: Der Bot öffnet zunächst die Webseite, extrahiert die Titel der ersten Seite nacheinander und geht dann zur nächsten Seite, um die Extraktion zu wiederholen, bis die Extraktion gestoppt oder abgeschlossen ist.

Sie können die gleiche Methode anwenden, um die Beschreibungen zu extrahieren. Um schließlich die URLs zu extrahieren, klicken Sie auf das “A”-Tag und wählen Sie “extract the URL of the selected link”. Wenn die Beschreibung und die URL in der oberen rechten Ecke angezeigt werden, bedeutet dies, dass wir sie erfolgreich extrahiert haben. Jetzt können wir den Feldnamen bearbeiten, die Scraping-Aufgabe speichern und die Extraktion starten.

Neben Google können mit Datenextraktionstools Daten von vielen anderen Websites abrufen, und sie werden in vielen Branchen eingesetzt. Unternehmen können zum Beispiel Yellowpages, Yelp und Google Maps extrahieren, um Vertriebskontakte zu generieren. 

Hier bekommen Sie Octoparse! 🤩

Preis: $0~$249 pro Monat

Packet & Preise:Octoparse Premium-Preise & Verpackung

Kostenlose Testversion: 14-tägige kostenlose Testversion

Herunterladen:Octoparse für Windows und MacOs

Wenn Sie Probleme bei der Datenextraktion haben, oder uns etwas Vorschlägen geben möchten, kontaktieren Sie bitte uns per E-Mail (support@octoparse.com). 💬

Autor*in: Das Octoparse Team ❤️

Themen untersuchen

Starten mit Octoparse heute

Download

Verwandte Artikel

  • avatarNeela Schmidt
    In diesem Artikel stelle ich 3 kostenlose und nützliche Tools zum Extrahieren der Bilder auf der Website vor, damit Sie die Bilder aus einer Website problemlos herunterladen können.
    13. April 2023 · 1 Minuten lesen
  • avatarNeela Schmidt
    In diesem Artikel werde ich mehrere Möglichkeiten vorstellen, damit Sie Webdaten mit Excel scrapen können.
    16. Dezember 2022 · 4 Minuten lesen
  • avatarChristel Kiesel
    Es gibt verschiedene Möglichkeiten, Daten aus dem Web zu crawlen, wie z. B. die Verwendung von APIs, die Erstellung eines eigenen Crawlers und die Verwendung von Web-Scraping-Tools wie Octoparse, import.io, Mozenda, Scrapebox und das Google Web Scraper Plugin.
    19. September 2022 · 4 Minuten lesen
  • avatarNeela Schmidt
    Auf dem Internet kann man alle offenen Infomationen bekommen, damit jede Geschäftsführer*in Produkt oder Dienstleistung verbessern und den Zielkunden persönliche Lösungen anbieten kann. Die am meisten zu extrahierenden Website sind die Info-Aggregator, einschließlich yellowpage.com, yelp.com, googlemaps.com und linkedin.com, daraus die Informationen sowie Benutzerkonto, E-Mail, Telefonnummer, Branche, Firma usw mit einem bestimmten Scraping Tool sehr leicht und effektive auszulesen sind. Wenn Sie die Telefonnummer für die Entwicklung Ihres Geschäfts sehr wichtig halten, ist der Artikel als eine große Hilfe für Sie angesehen. Dann lesen Sie bitte weiter, danach wissen Sie genauer, wie man die Telefonnummer aus einer Website extrahieren kann.
    09. August 2022 · 6 Minuten lesen