5 Schritte zum Scrapen mehrerer Bilder mit Python

Ob in der Marktforschung, bei Produktauflistungen im E-Commerce oder bei der Erstellung von Datensätzen für das maschinelle Lernen – die schnelle und effiziente Erfassung einer großen Anzahl von Bildern ist zum Schlüssel geworden. In diesem Artikel sprechen wir darüber, wie die Bilderfassung automatisiert werden kann.

Einführung

Das automatisierte Extrahieren mehrerer Bilder aus Websites hat viele praktische Anwendungen, egal ob Sie Bilder für Marktforschung, Produktlisten für den elektronischen Handel, Datensätze für maschinelles Lernen oder andere Projekte benötigen. Dank Python-Bibliotheken und visuellen Web-Scraping-Tools ist es heute ein Leichtes, Hunderte oder sogar Tausende von Bildern innerhalb weniger Minuten aus dem Internet zu extrahieren.

In diesem Artikel werden wir zwei effektive Methoden für das Scrapen mehrerer Bilder in großem Umfang vorstellen: die Verwendung von Python-Bibliotheken und die Verwendung des visuellen Web Scrapers Octoparse. Jeder Ansatz hat seine Vor- und Nachteile, aber beide ermöglichen ein effizientes Crawling von Bildern aus Websites.

Option 1: Verwendung von Python-Bibliotheken

Der flexibelste Ansatz für das Scraping mehrerer Bilder ist die Codierung eines Python-Skripts, das Bibliotheken wie Beautiful Soup und Requests verwendet. Hier sind die grundlegenden Schritte:

Schritt 1: Installieren Sie die erforderlichen Python-Bibliotheken

pip install beautifulsoup4 
pip install requests
pip install pillow # For saving images

Schritt 2: Stellen Sie eine GET-Anfrage an die URL der Website

import requests
url = "https://www.website.com"
response = requests.get(url)

Schritt 3: Parsen des HTML mit Beautiful Soup

from bs4 import BeautifulSoup
soup = BeautifulSoup(response.text, "html.parser")

Schritt 4: Alle <img>-Tags auf der Seite finden

images = soup.find_all("img")

Schritt 5: Durchlaufen Sie jeden <img>-Tag und extrahieren Sie die Bild-URL aus dem ‘src’-Attribut

for image in images:
    img_url = image['src']

Beachten

Rechtliche Aspekte: Prüfen Sie die Nutzungsbedingungen der Website, bevor Sie Scraping durchführen.
Dynamische Seiten: Für Websites, die JavaScript zum Laden von Inhalten verwenden, kann Selenium hilfreich sein.

Vorteile und Nachteile

Vorteile:

Volle Kontrolle und Anpassungsmöglichkeiten
Flexibilität bei der Anpassung des Skripts für verschiedene Websites

Nachteile:

Erfordert Programmierkenntnisse in Python
Weniger benutzerfreundlich als ein visuelles Tool
Schutzmechanismen: Viele Websites haben Sicherheitsmaßnahmen wie Captchas oder IP-Rate-Limits implementiert, um automatisiertes Scraping zu verhindern. Das bedeutet, dass man eventuell Proxys oder Captcha-Lösungen nutzen muss, was das Scraping aufwendiger macht.

Beispiel: Scraping von Amazon-Produktbildern mit Python

Amazon verfügt über Tausende von Produkten mit einer großen Anzahl von hochauflösenden Bildern, die das Produkt aus verschiedenen Blickwinkeln, in verschiedenen Farben/Varianten und vergrößert auf bestimmte Details zeigen. Ein E-Commerce-Unternehmen könnte vom Scraping einiger dieser Produktbilder für die folgenden Zwecke profitieren:

Marktforschung: Analyze how competitors display and describe similar products visually.
Produktinspiration: Get new product ideas by seeing related items Amazon recommends.
Datenwissenschaft: Erstellen Sie Bilddatensätze für das Training von Machine-Learning-Modellen.

Das Python-Skript könnte wie folgt aufgebaut sein:

Geben Sie eine Amazon Produkt-URL an (z.B. Küchenarmaturen)
Analysieren Sie den HTML-Code der Produktseite
Extrahieren Sie alle <img>-Tags innerhalb des Hauptabschnitts “Produktbilder”.
Führen Sie eine Schleife durch diese Bild-URLs und laden Sie sie herunter:

Hauptbild
Bilder der primären Variante
Vergrößerte Bilder

Speichern Sie die Bilder in separaten Ordnern mit den Bezeichnungen “Haupt”, “Varianten” und “gezoomt”.
Beheben Sie eventuelle Fehler und fahren Sie mit dem Scraping der nächsten Produktseiten-URL fort.

Hier ist ein Beispiel für Python-Code zum Scrapen mehrerer Bilder von Amazon-Produktseiten:

import requests
from bs4 import BeautifulSoup 
import os

# Specify Amazon product URL
url = "https://www.amazon.com/gp/product/B000LFX2RO"

# Make request and parse HTML
resp = requests.get(url)
soup = BeautifulSoup(resp.text, "html.parser")

# Find product image sections
main_images = soup.find(id="pp-product-feature-div")  
variants = soup.find(id="altImages")
zoomed = soup.find(id="dp-tile-image-accordion")

# Loop through each image section    
for section in [main_images, variants, zoomed]:
    
  # Extract all <img> tags
  img_tags = section.find_all("img")
    
  for img in img_tags:
        
    # Get image URL from src attribute  
    img_url = img.get("src")
        
    # Download image   
    img_data = requests.get(img_url).content
            
    # Save image with unique name     
    img_name = img_url.split("/")[-1]   
    img_path = os.path.join("images", img_name) 
    with open(img_path, "wb") as f:
        f.write(img_data)

Option 2: Verwendung von Octoparse

Für Benutzer ohne Programmierkenntnisse ist Octoparse ein visueller Web Scraper, der verwendet werden kann, um mehrere Bilder von Websites mit einem einfachen Drag-and-Drop-Prozess zu scrapen. Einige der wichtigsten Vorteile von Octoparse für das Scrapen von Bildern sind:

1. Benutzerfreundlichkeit

Visuelle Oberfläche: Octoparse bietet eine Point-and-Click-Benutzeroberfläche, die es auch Personen ohne Programmierkenntnisse ermöglicht, Daten aus Websites zu extrahieren.
Drag-and-Drop-Funktionalität: Benutzer können einfach Aktionen ausführen und Workflows erstellen, indem sie Elemente per Drag-and-Drop verwenden.

2. Vorgefertigte Vorlagen

Schnellstart durch Vorlagen: Octoparse bietet eine große Auswahl an vorgefertigten Scraping-Vorlagen für beliebte Websites, die es Benutzern ermöglichen, sofort loszulegen, ohne ein eigenes Scraping-Skript erstellen zu müssen.
Anpassbarkeit: Vorlagen können angepasst werden, um spezifische Anforderungen zu erfüllen.

https://www.octoparse.de/template/amazon-germany-review-scraper-mit-urls

3. Cloud-basierte Datenverarbeitung

Automatisierung und Speicherung: Mit der Cloud-Extraktion können Benutzer Scraping-Jobs automatisieren und Daten in der Cloud speichern, was den Bedarf an eigener Hardware reduziert.
24/7-Extraktion: Die Cloud-Funktion ermöglicht kontinuierliches Scraping ohne Unterbrechung, was besonders für große Datenprojekte nützlich ist.

4. Datenexport in verschiedenen Formaten

Vielseitige Exportoptionen: Octoparse unterstützt den Export von Daten in verschiedene Formate wie CSV, Excel, JSON und Datenbanken, wodurch die Integration in andere Workflows erleichtert wird.
API-Integration: Ermöglicht eine direkte Verbindung mit anderen Anwendungen und Systemen zur Echtzeit-Datenübertragung.

5. Dynamisches Content-Scraping

JavaScript-geladene Seiten: Octoparse kann Inhalte von dynamischen Webseiten scrapen, die durch JavaScript generiert werden, was mit vielen anderen Tools schwierig ist.
Umgang mit Webseiten-Interaktionen: Es unterstützt das Automatisieren von Interaktionen wie das Klicken auf Schaltflächen und das Scrollen auf Seiten.

6. Zuverlässige Datenextraktion

Datengenauigkeit: Die präzise Extraktionslogik stellt sicher, dass Daten genau und konsistent erfasst werden.
Fehlererkennung: Octoparse bietet Fehlerprotokolle und Hinweise, die Benutzern helfen, Probleme schnell zu identifizieren und zu beheben.

7. Unterstützung und Schulungen

Kundensupport: Octoparse bietet Support durch Tutorials, Dokumentation und eine engagierte Support-Hotline für schnelle Hilfe.
Community und Schulungen: Eine aktive Community und regelmäßig angebotene Schulungen machen es Benutzern leicht, das Tool zu erlernen und effektiv einzusetzen.

8. Flexibilität und Skalierbarkeit

Skalierbar für große Projekte: Octoparse ist geeignet für kleine Datenextraktionen bis hin zu großen, komplexen Projekten, die eine umfangreiche Datenverarbeitung erfordern.
Flexible Konfigurationsoptionen: Benutzer können die Extraktion je nach ihren spezifischen Anforderungen individuell anpassen.

9. Zusätzliche Funktionen

IP-Rotation: Verhindert das Blockieren durch Websites und sorgt für eine störungsfreie Datenerfassung.
Planungsfunktionen: Benutzer können Zeitpläne für Scraping-Jobs erstellen, sodass Daten zu bestimmten Zeitpunkten extrahiert werden.

Insgesamt bietet Octoparse eine leistungsstarke, benutzerfreundliche und umfassende Lösung für Web Scraping, die sich sowohl für Einsteiger als auch für fortgeschrittene Benutzer eignet. Es vereinfacht komplexe Aufgaben, spart Zeit und bietet eine hohe Flexibilität für verschiedene Arten von Datenerfassungsprojekten.

Es gibt selbstverständlich weitere Möglichkeiten, die Sie hier finden können.

Zusammenfassung

Die Möglichkeit, auf einfache Weise mehrere Bilder von Websites zu scrapen, ermöglicht viele Anwendungsfälle. Während Python-Bibliotheken volle Flexibilität bieten, rationalisiert ein visueller Scraper wie Octoparse den Prozess für nicht-technische Benutzer. Octoparse automatisiert Aufgaben wie das Auswählen von Bildern, das Herunterladen von Fotos und die Integration mit Business-Tools – und macht Web Scraping so einfach wie das Einfügen einer URL und die Angabe einiger Details. Wenn Sie eine schnelle, codefreie Lösung für das Scraping einer großen Anzahl von Bildern benötigen, können Sie Octoparse kostenlos testen. Extrahieren Sie relevante Produktfotos, Forschungsbilder und mehr mit einer einfachen Drag-and-Drop-Oberfläche.

👍👍 Wenn Sie Interesse an Octoparse und Web Scraping haben, können Sie es zunächst 14 Tage lang kostenlos ausprobieren.

Wenn Sie Probleme bei der Datenextraktion haben, oder uns etwas Vorschlägen geben möchten, kontaktieren Sie bitte uns per E-Mail (support@octoparse.com). 💬

Autor*in: Das Octoparse Team ❤️