logo
languageDEdown
menu

Anleitung zum Scrapen des Webs mit Node.js für Einsteiger

5 Minuten lesen

Einführung

Web Scraping ermöglicht es uns, große Datenmengen von Websites auf automatisierte Weise zu extrahieren. Es gibt viele Anwendungsfälle, von der Produktforschung bis zur Datenwissenschaft. Zwei Hauptoptionen für Web Scraping sind die Programmierung von JavaScript mit Node.js oder die Verwendung eines visuellen Tools wie Octoparse.

In diesem Artikel finden Sie eine Anleitung für Anfänger zum Scraping von Daten aus dem Internet mit Node.js. Wir erklären, wie man die erforderlichen Module installiert, HTTP-Anfragen stellt, HTML-Antworten parst, die gewünschten Daten extrahiert und häufige Probleme behandelt. Außerdem demonstrieren wir diese Schritte anhand eines Node.js-Codebeispiels, das echte Daten von tagesschau.de ausliest.

Scraping mit Node.js

Um mit Node.js Daten aus dem Web zu scrapen, sind einige grundlegende Schritte erforderlich:

Schritt 1: Installation der erforderlichen Module

Sie benötigen:

  • Das Modul Request, um HTTP-Anfragen an Websites zu stellen
  • Das Cheerio-Modul zum Parsen der HTML-Antworten

Sie können die Module mit installieren:

npm install request --save 
npm install cheerio --save

Schritt 2: Stellen Sie eine HTTP-Anfrage

Verwenden Sie das Modul Request, um eine GET-Anfrage an die URL zu stellen:

request(url, function(error, response, body) {
   // Parse HTML and extract data
});

Schritt 3: Parsen der HTML-Antwort

Laden Sie den Antwortkörper in Cheerio:

const $ = cheerio.load(body);

Schritt 4: Extrahieren Sie die gewünschten Daten

Verwenden Sie Cheerio und CSS-Selektoren:

const data = $('#some-element').text();

Schritt 5: Behebung häufiger Fehler

Sie können auf Fehler stoßen:

  • Verbindungsfehler – Verwenden Sie ein try/catch
  • Ungültige URLs – Überprüfen Sie den Antwortstatuscode

Beispiel: Scraping von Daten von tagesschau.de mit Node.js

Wir demonstrieren das Scraping von echten Daten von tagesschau.de – einer großen deutschen Nachrichten-Website – mit Node.js und der Cheerio-Bibliothek. Konkret werden wir extrahieren:

  • Die Überschrift des Hauptartikels
  • Die Zusammenfassung des Artikels
  • Den Namen des Autors

Der Code sieht wie folgt aus:

// Import modules
const request = require("request");
const cheerio = require("cheerio");

// URL to scrape
const url = "https://www.tagesschau.de/"

// Make request 
request(url, function(err, res, html) {

  // Parse HTML string 
  const $ = cheerio.load(html);

  // Get headline     
  const headline = $(".teasers .headline").text();

  // Get summary
  const summary = $(".teasers .caption").text();

  // Get author   
  const author = $(".meta span").text();

  // Print results
  console.log(headline);
  console.log(summary);
  console.log(author);

});

Scraping mit Octoparse

Octoparse ist ein visuelles Web-Scraping-Tool, mit dem Sie Daten von Websites scrapen können, ohne Code schreiben zu müssen. Octoparse bietet eine einfache Drag-and-Drop-Schnittstelle, die Web-Scraping auch für Nicht-Entwickler zugänglich macht. Sie können Scraper nur mit einem Webbrowser erstellen, ausführen und skalieren.

Beispiel: Scraping von tagesschau.de mit Octoparse

Wir demonstrieren das Scraping von Daten von tagesschau.de – insbesondere die Überschrift des Hauptartikels, die Zusammenfassung und den Namen des Autors – unter Verwendung der visuellen Schnittstelle von Octoparse.

Schritt 1: Hinzufügen der URL

Öffne die Octoparse-Oberfläche, klicke auf “URL hinzufügen” und gib ein: https://www.tagesschau.de/

Schritt 2: Automatische Erkennung

Schritt 3: Konfigurieren Sie die Datenextraktion

Schritt 4: Speichern und Ausführen

Schritt 5: Daten exportieren

Vergleich: Node.js vs. Octoparse

Node.js bietet zwar volle Kontrolle und Anpassungsmöglichkeiten für Web Scraper, erfordert aber Kenntnisse in der JavaScript-Programmierung. Octoparse hingegen bietet eine einfache visuelle Schnittstelle, die keine Programmierkenntnisse erfordert.

Die Hauptunterschiede zwischen den Ansätzen von Node.js und Octoparse sind:

Dieser Inhalt wird nur in einem Feishu Docs unterstützt

Node.jsOctoparse
AnforderungenErfordert Kenntnisse in der JavaScript-ProgrammierungKein Programmieren erforderlich – nur ein Browser
PersonalisierungVollständiges Anpassungspotenzial. Codieren Sie Scrapper genau so, wie Sie sie haben wollen.Weniger konfigurierbar. Am besten geeignet für einfache Scraping-Aufgaben.
BenutzerfreundlichkeitEs kostet Zeit und Mühe, Node.js-Bibliotheken zu lernen und Code zu schreibenSehr einfacher Einstieg und sofortige Nutzung
AnwendungsfälleAm besten geeignet für komplexe Scraper oder großflächige ExtraktionGeeignet für die meisten grundlegenden und routinemäßigen Schabearbeiten

Zusammenfassung

Zusammenfassend lässt sich sagen, dass Node.js die leistungsstärkste und am besten anpassbare Option für Web-Scraping ist, aber Kenntnisse in der JavaScript-Kodierung erfordert. Octoparse hingegen bietet eine einfach zu benutzende visuelle Benutzeroberfläche, die keine Programmierkenntnisse erfordert. Die richtige Wahl hängt von der Wahl zwischen Einfachheit und Flexibilität ab, je nach Ihren spezifischen Scraping-Bedürfnissen und technischen Fähigkeiten.

Wenn Ihre Scraping-Aufgaben einfach sind und nur begrenzte Anforderungen stellen, könnte Octoparse eine schnelle und effektive Lösung bieten, ohne dass Sie dafür eigenen Node.js-Code schreiben müssen.

Hier bekommen Sie Octoparse! 🤩

Preis: $0~$249 pro Monat

Packet & Preise:Octoparse Premium-Preise & Verpackung

Kostenlose Testversion: 14-tägige kostenlose Testversion

Herunterladen:Octoparse für Windows und MacOs

Wenn Sie Probleme bei der Datenextraktion haben, oder uns etwas Vorschlägen geben möchten, kontaktieren Sie bitte uns per E-Mail (support@octoparse.com). 💬

Autor*in: Das Octoparse Team ❤️

Themen untersuchen

Starten mit Octoparse heute

Download

Verwandte Artikel

  • avatarChristel Kiesel
    In diesem Artikel bieten wir Ihnen eine Schritt-für-Schritt-Anleitung, damit Sie einen Web-Crawler mit Python bauen können.
    30. April 2023 · 4 Minuten lesen
  • avatarNeela Schmidt
    Was ist API? Kann API Daten scrapen? Wie wird API beim Web Scraping verwendet und was können Sie mit API machen. Wenn Sie solche Fragen haben, ist der Artikel genau für Sie.
    13. April 2023 · 2 Minuten lesen
  • avatarChristel Kiesel
    Node.js ist eine Open-Source-plattform, die auf der JavaScript-Laufzeitumgebung aufbaut. Mit Node.js können Sie serverseitige Anwendungen mit JavaScript erstellen. Es bietet eine leistungsstarke ApI und viele Bibliotheken, die Ihnen helfen, schnell und einfach Web Scraping-Anwendungen zu erstellen. Node.js eignet sich ideal für das Web Scraping, da es schnell und skalierbar ist. Darüber hinaus bietet es die Möglichkeit, asynchrone programmierung mit Callbacks, promises und Async / Await zu implementieren. Dies ist entscheidend, da das Scraping von Websites häufig asynchrone Aufgaben erfordert, um mit Verzögerungen und Fehlern umzugehen.
    30. März 2023 · 5 Minuten lesen
  • avatarChristel Kiesel
    Der Online-Arbeitsmarkt hat zweifelsohne die persönlichen Einstellungsaktivitäten verdrängt. Dies gilt vor allem, wenn die meisten Städte schon mehrmals gesperrt geworden sind und sich seit COVID-19 mehr Arbeitsplätze in den Remote-Modus verlagern. In diesem Fall hilft das Scraping von Stellenanzeigen nicht nur Institutionen und Organisationen, sondern auch einzelnen Arbeitssuchenden.
    12. Dezember 2022 · 7 Minuten lesen