Anleitung zum Scrapen des Webs mit Node.js für Einsteiger

2023-03-14T17:38:56+00:00

5 Minuten lesen

Einführung

Web Scraping ermöglicht es uns, große Datenmengen von Websites auf automatisierte Weise zu extrahieren. Es gibt viele Anwendungsfälle, von der Produktforschung bis zur Datenwissenschaft. Zwei Hauptoptionen für Web Scraping sind die Programmierung von JavaScript mit Node.js oder die Verwendung eines visuellen Tools wie Octoparse.

In diesem Artikel finden Sie eine Anleitung für Anfänger zum Scraping von Daten aus dem Internet mit Node.js. Wir erklären, wie man die erforderlichen Module installiert, HTTP-Anfragen stellt, HTML-Antworten parst, die gewünschten Daten extrahiert und häufige Probleme behandelt. Außerdem demonstrieren wir diese Schritte anhand eines Node.js-Codebeispiels, das echte Daten von tagesschau.de ausliest.

Scraping mit Node.js

Um mit Node.js Daten aus dem Web zu scrapen, sind einige grundlegende Schritte erforderlich:

Schritt 1: Installation der erforderlichen Module

Sie benötigen:

Das Modul Request, um HTTP-Anfragen an Websites zu stellen
Das Cheerio-Modul zum Parsen der HTML-Antworten

Sie können die Module mit installieren:

npm install request --save 
npm install cheerio --save

Schritt 2: Stellen Sie eine HTTP-Anfrage

Verwenden Sie das Modul Request, um eine GET-Anfrage an die URL zu stellen:

request(url, function(error, response, body) {
   // Parse HTML and extract data
});

Schritt 3: Parsen der HTML-Antwort

Laden Sie den Antwortkörper in Cheerio:

const $ = cheerio.load(body);

Schritt 4: Extrahieren Sie die gewünschten Daten

Verwenden Sie Cheerio und CSS-Selektoren:

const data = $('#some-element').text();

Schritt 5: Behebung häufiger Fehler

Sie können auf Fehler stoßen:

Verbindungsfehler – Verwenden Sie ein try/catch
Ungültige URLs – Überprüfen Sie den Antwortstatuscode

Beispiel: Scraping von Daten von tagesschau.de mit Node.js

Wir demonstrieren das Scraping von echten Daten von tagesschau.de – einer großen deutschen Nachrichten-Website – mit Node.js und der Cheerio-Bibliothek. Konkret werden wir extrahieren:

Die Überschrift des Hauptartikels
Die Zusammenfassung des Artikels
Den Namen des Autors

Der Code sieht wie folgt aus:

// Import modules
const request = require("request");
const cheerio = require("cheerio");

// URL to scrape
const url = "https://www.tagesschau.de/"

// Make request 
request(url, function(err, res, html) {

  // Parse HTML string 
  const $ = cheerio.load(html);

  // Get headline     
  const headline = $(".teasers .headline").text();

  // Get summary
  const summary = $(".teasers .caption").text();

  // Get author   
  const author = $(".meta span").text();

  // Print results
  console.log(headline);
  console.log(summary);
  console.log(author);

});

Scraping mit Octoparse

Octoparse ist ein visuelles Web-Scraping-Tool, mit dem Sie Daten von Websites scrapen können, ohne Code schreiben zu müssen. Octoparse bietet eine einfache Drag-and-Drop-Schnittstelle, die Web-Scraping auch für Nicht-Entwickler zugänglich macht. Sie können Scraper nur mit einem Webbrowser erstellen, ausführen und skalieren.

Beispiel: Scraping von tagesschau.de mit Octoparse

Wir demonstrieren das Scraping von Daten von tagesschau.de – insbesondere die Überschrift des Hauptartikels, die Zusammenfassung und den Namen des Autors – unter Verwendung der visuellen Schnittstelle von Octoparse.

Schritt 1: Hinzufügen der URL

Öffne die Octoparse-Oberfläche, klicke auf “URL hinzufügen” und gib ein: https://www.tagesschau.de/

Schritt 2: Automatische Erkennung

Schritt 3: Konfigurieren Sie die Datenextraktion

Schritt 4: Speichern und Ausführen

Schritt 5: Daten exportieren

Vergleich: Node.js vs. Octoparse

Node.js bietet zwar volle Kontrolle und Anpassungsmöglichkeiten für Web Scraper, erfordert aber Kenntnisse in der JavaScript-Programmierung. Octoparse hingegen bietet eine einfache visuelle Schnittstelle, die keine Programmierkenntnisse erfordert.

Die Hauptunterschiede zwischen den Ansätzen von Node.js und Octoparse sind:

Dieser Inhalt wird nur in einem Feishu Docs unterstützt

	Node.js	Octoparse
Anforderungen	Erfordert Kenntnisse in der JavaScript-Programmierung	Kein Programmieren erforderlich – nur ein Browser
Personalisierung	Vollständiges Anpassungspotenzial. Codieren Sie Scrapper genau so, wie Sie sie haben wollen.	Weniger konfigurierbar. Am besten geeignet für einfache Scraping-Aufgaben.
Benutzerfreundlichkeit	Es kostet Zeit und Mühe, Node.js-Bibliotheken zu lernen und Code zu schreiben	Sehr einfacher Einstieg und sofortige Nutzung
Anwendungsfälle	Am besten geeignet für komplexe Scraper oder großflächige Extraktion	Geeignet für die meisten grundlegenden und routinemäßigen Schabearbeiten

Zusammenfassung

Zusammenfassend lässt sich sagen, dass Node.js die leistungsstärkste und am besten anpassbare Option für Web-Scraping ist, aber Kenntnisse in der JavaScript-Kodierung erfordert. Octoparse hingegen bietet eine einfach zu benutzende visuelle Benutzeroberfläche, die keine Programmierkenntnisse erfordert. Die richtige Wahl hängt von der Wahl zwischen Einfachheit und Flexibilität ab, je nach Ihren spezifischen Scraping-Bedürfnissen und technischen Fähigkeiten.

Wenn Ihre Scraping-Aufgaben einfach sind und nur begrenzte Anforderungen stellen, könnte Octoparse eine schnelle und effektive Lösung bieten, ohne dass Sie dafür eigenen Node.js-Code schreiben müssen.

Hier bekommen Sie Octoparse! 🤩

Preis: $0~$249 pro Monat

Packet & Preise:Octoparse Premium-Preise & Verpackung

Kostenlose Testversion: 14-tägige kostenlose Testversion

Herunterladen:Octoparse für Windows und MacOs

Wenn Sie Probleme bei der Datenextraktion haben, oder uns etwas Vorschlägen geben möchten, kontaktieren Sie bitte uns per E-Mail (support@octoparse.com). 💬

Autor*in: Das Octoparse Team ❤️