Web Scraping ist eine Computerprogrammtechnik, mit der große Datenmengen von Websites extrahiert werden. Dabei werden Daten im regulären Format extrahiert und in leicht lesbare strukturierte Formate verarbeitet. Als Trendbegriff im datendominierten Zeitalter bietet Web Scraping in Kombination mit der Leistungsfähigkeit der Automatisierung eine skalierbare Möglichkeit, auf die riesigen Mengen an Dokumentation und Daten im Web zuzugreifen, sie zu bewerten, zu sammeln, zu organisieren und zu analysieren. Moderne Web Scraper haben den Prozess der Datenextraktion rationalisiert und uns so die repetitive Arbeit des Kopierens und Einfügens erspart.
Lange Zeit galt das Web Scraping als eine Art Grauzone. Denn in den meisten Fällen wird diese Technik verwendet, um Daten von Webseiten abzugreifen, ohne die Zustimmung des Webmasters der Site einzuholen. Mit der zunehmenden Verbreitung des Webscrapings ist sich immer mehr Menschen der Legalität dieser Technik bewusst geworden. In diesem Artikel besprechen wir die rechtlichen Aspekte des Web-Scrapings und wie man rechtliche Probleme beim Abrufen von Daten von Websites vermeidet.
Ist Web Scraping legal?
Beginnen wir mit der Frage im Titel. Ist Web Scraping legal? Nun, das kommt darauf an. Es gibt viele Unsicherheiten hinsichtlich der Legalität von Web-Scraping, einschließlich der Art und Weise, wie es durchgeführt wird, wie die gescrapten Daten verwendet werden und welche Rechtstheorien und Gesetze gelten.
So führen Sie Web Scraping durch
Im Allgemeinen ist das Scraping öffentlicher Informationen von Websites legal, während das Scraping privater Kontodaten Datenschutzbedenken aufwirft. Hier sind einige beliebte Anwendungsfälle, die zeigen, wie verschiedene Branchen Web Scraping auf allgemein akzeptierte Weise durchführen.
E-Commerce: Der Einzelhandel nutzt Web Scraping, um die Preisüberwachung auf Marktplätzen zu automatisieren , Produktprofile zu erstellen und Kundenbewertungen für die Stimmungsanalyse auf verschiedenen Online-Shopping-Plattformen wie Amazon und eBay zu sammeln.
Marketing und Werbung: Inhaltsersteller nutzen Web Scraping, um Daten von verschiedenen sozialen Medienplattformen wie Twitter und YouTube zu sammeln und so neue Ideen für das Content-Marketing zu entwickeln und herauszufinden, woran das Publikum interessiert ist.
Immobilien: Immobilienmakler durchsuchen Inserate von Immobilienwebsites wie Realtor.com, um Unmengen an Forschungsdaten für Vergleiche zu aggregieren. Auf diese Weise können sie voraussagen, ob der Immobilienmarkt in naher Zukunft steil ansteigen wird oder in welcher Preisklasse ihre Immobilien konkurrenzfähig sein werden.
So verwenden Sie Scraped-Daten
Wenn Sie Web Scraping für Ihre eigenen Zwecke durchführen, ist dies legal, da es unter die Fair-Use-Doktrin fällt, wie z. B. Marktforschung und akademische Forschung. Die Komplikationen beginnen, wenn Sie Scraped-Daten für andere, insbesondere kommerzielle Zwecke, verwenden möchten.
Zitat aus Wikipedia.org: eBay v. Bidder’s Edge, 100 F.Supp.2d 1058 (ND Cal. 2000) war ein Präzedenzfall, in dem die „Trespass to Chattels“-Theorie auf Online-Aktivitäten angewendet wurde. Im Jahr 2000 nutzte eBay, ein Online-Auktionshaus, erfolgreich die Theorie des „Trespass to Chattels“, um eine einstweilige Verfügung zu erwirken, die Bidder’s Edge, einen Auktionsdatenaggregator, daran hinderte, einen „Crawler“ zum Sammeln von Daten von der eBay-Website zu verwenden. Das Urteil war ein Präzedenzfall, in dem „Trespass to Chattels“ auf Online-Aktivitäten angewendet wurde, obwohl seine Analyse in der neueren Rechtsprechung kritisiert wurde.
Die Rechtstheorien und Gesetze in verschiedenen Ländern
Die Vielseitigkeit von Web Scraping ermöglicht einen so einfachen Zugriff auf Daten, dass man sich natürlich Sorgen über einen möglichen Missbrauch oder eine missbräuchliche Verwendung von Informationen machen muss. Wer die Wahrscheinlichkeit rechtlicher Kontroversen beim Web Scraping verringern möchte, sollte sich über die rechtlichen Risiken im Zusammenhang mit Web Scraping im Klaren sein.
Hier kommt die ultimative Frage: Scrapen oder nicht Scrapen? Ist Web Scraping illegal oder nicht? Welche möglichen rechtlichen Auswirkungen hat die Verwendung von Web Scraping? Leider gibt es auf diese Fragen keine kurze Antwort. Da Web Scraping im rechtlichen Kontext relativ neu ist, ist die Grenze zwischen legitimer und böswilliger Verwendung dieser Technik in den meisten Ländern immer noch schwer zu ziehen. Etwa ein Jahrzehnt lang wurde Web Scraping nur von einer Reihe verwandter, grundlegender Rechtstheorien und Gesetze bestimmt, wie zum Beispiel:
- Urheberrechtsverletzung
- Vertragsbruch
- Verstoß gegen den Computer Fraud and Abuse Act (CFAA)
- Unbefugtes Betreten beweglicher Sachen
In den meisten Ländern ist die Strafverfolgung speziell für Web Scraping noch nicht klar definiert. Mit dem Inkrafttreten der DSGVO-Vorschriften haben jedoch immer mehr Menschen erkannt, dass sie sich an die gesetzlichen Standards halten müssen, bevor sie mit einem Scraping-Projekt fortfahren, um nicht in eine heikle rechtliche Situation zu geraten. Da die internationalen rechtlichen Umstände sehr unterschiedlich sind, werden in diesem Teil nur die rechtlichen Risiken von Web Scraping in den Vereinigten Staaten und Europa erörtert.
Der Fall der Vereinigten Staaten
In den USA ist die Gesetzgebung zum Web Scraping noch in der Entwicklung und betrifft eine große Anzahl gesetzlicher Regelungen und Bereiche des Common Law. Es gibt wichtige Arten von Rechtsansprüchen, die Websitebesitzer geltend machen können, um unerwünschtes Web Scraping zu vermeiden. Beispielsweise können Web Scraping-Aktivitäten gegen Bundesgesetze verstoßen, wie etwa den Computer Fraud and Abuse Act (CFAA), den Digital Millennium Copyright Act (DMCA) und Insiderhandelsgesetze; staatliche Blue Sky Laws; Datenschutzgesetze; und Common Law-Ansprüche wie Vertragsbruch, Betrug und unbefugte Nutzung von beweglichem Eigentum.
CFAA
Das CFAA verbietet „absichtlichen, unberechtigt auf einen Computer zuzugreifen oder die Zugriffsberechtigung zu überschreiten und dadurch Informationen von einem geschützten Computer zu erhalten.“ Die Gerichte sind sich jedoch nicht einig, was einen unberechtigten Zugriff oder eine Überschreitung der Zugriffsberechtigung ausmacht.
In hiQ Labs, Inc. v. LinkedIn Corp. stellt das Gericht fest, dass der Zugriff eines Benutzers auf Daten, die der Eigentümer der Öffentlichkeit zugänglich gemacht hat, keinen „unberechtigten“ Zugriff im Sinne des CFAA darstellt. In Facebook, Inc. v. Power Ventures, Inc. stellte das Gericht jedoch fest, dass ein Benutzer „unberechtigt“ auf einen Computer zugreift, wenn er oder sie weiterhin technische Maßnahmen umgeht, die der Betreiber einsetzt, um ihm den Zugriff zu verweigern.
Einige wichtige Gerichtsentscheidungen aus dem Jahr 2020 beziehen sich auch darauf, ob das Scraping von Daten, auf die man für bestimmte Zwecke – wie das Surfen als potenzieller Kunde oder die Teilnahme als Mitglied eines sozialen Netzwerks – zugreifen darf, auf die man aber für Web-Scraping-Zwecke nicht zugreifen darf, einen Verstoß gegen den CFAA darstellt. Wir werden in diesem Artikel nicht näher darauf eingehen. Kurz gesagt, obwohl der Umfang der Zugriffsbestimmung des CFAA ungeklärt ist, legt eine wichtige Autorität nahe, dass das Scraping öffentlich verfügbarer Informationen, wie z. B. aus LinkedIn-Mitgliedsprofilen, keinen Verstoß gegen den CFAA darstellt. Ebenso legt sie nahe, dass ein Verstoß gegen die Nutzungsbedingungen einer Website allein, ohne weitere Umstände, möglicherweise keinen Verstoß gegen den CFAA darstellt.
Urheberrecht/DMCA
Der Betreiber einer Website, die Ziel von Web Scraping ist, kann den Benutzer des Web Scraping-Geräts wegen Urheberrechtsverletzung verklagen, indem er nachweist:
- sein Besitz eines gültigen Urheberrechts;
- das Kopieren der Originalelemente des betreffenden Werks durch den Benutzer.
Mindestens ein Bundesgericht hat entschieden, dass eine Partei nach Abschnitt 1201(a)(1)(A) des DMCA haftbar gemacht werden kann, wenn sie Bots verwendet, um Sicherheitsmaßnahmen zu umgehen, die den nicht menschlichen Zugriff auf urheberrechtlich geschütztes Material auf einer Webseite kontrollieren.
Beachtenswert ist auch das allgemeine Urheberrechtsprinzip, dass zwar Zusammenstellungen von Fakten urheberrechtlich geschützt sein können, Autoren jedoch nicht ihre Ideen oder die Fakten, die sie erzählen, urheberrechtlich schützen können. Wenn die ausgelesenen Daten also reine Fakten ohne kreative Komponente sind, besteht kein Urheberrechtsanspruch.
Datenschutzbestimmungen
Web Scraping kann auch gegen die Datenschutzgesetze von Staaten und anderen Rechtsräumen verstoßen. So gewähren beispielsweise die Datenschutz-Grundverordnung der EU und der California Consumer Privacy Act von 2018 Verbrauchern eine Reihe von Rechten und Schutzmaßnahmen in Bezug auf ihre persönlichen Daten. Web Scraping-Aktivitäten, bei denen personenbezogene Daten gesammelt werden, können gegen eine Reihe von Datenschutzgesetzen verstoßen – und einen Web Scraper möglicherweise staatlichen und privaten Gerichtsverfahren aussetzen.
Insiderhandel
Unter bestimmten Umständen könnte Web Scraping auch gegen das Bundesgesetz zum Insiderhandel oder die Blue Sky Laws der Bundesstaaten verstoßen. Beispielsweise könnte die Verwendung von positiven Falschdarstellungen, um durch Web Scraping wesentliche nicht öffentliche Informationen zu erhalten und dann auf der Grundlage dieser Informationen zu handeln, möglicherweise Insiderhandel darstellen.
Allerdings ist die Rechtslage in diesem Bereich noch nicht eindeutig und es bleibt abzuwarten, wie streng Regulierungsbehörden und Strafverfolgungsbehörden bei der Entscheidung darüber vorgehen, was im Zusammenhang mit Web Scraping eine Pflichtverletzung oder Täuschung darstellt.
Vertragsbruch
Zusätzlich zu den durch die oben genannten Gesetze gesetzten Grenzen könnte ein Kläger versuchen, verschiedene Rechtsmittel des Common Law in Anspruch zu nehmen, um Web Scraping einzudämmen oder zu unterbinden. Einige Websitebetreiber haben beispielsweise versucht, Vertragsverletzungsansprüche gegen mutmaßliche Web Scraper geltend zu machen. Gerichte haben jedoch entschieden, dass Beklagte über die Nutzungsbedingungen einer Website informiert sein müssen, damit diese Bedingungen gegen sie durchgesetzt werden können.
Der Fall Europa
Heute haben 69 % der Bevölkerung über 16 Jahren in der EU von der DSGVO gehört und 71 % der Menschen haben von ihrer nationalen Datenschutzbehörde gehört. Dies geht aus einer veröffentlichten Umfrage der EU-Agentur für Grundrechte hervor. Obwohl die DSGVO sich noch in den Kinderschuhen befindet, ist sie eines der umfassendsten und wirkungsvollsten Datenschutzgesetze aller Zeiten. Sie hat die Art und Weise, wie Unternehmen in Europa das Web scrapen, radikal verändert. Wenn Sie für Ihr Scraping-Projekt PIIs scrapen müssen, sollten Sie DSGVO-konform sein, um hohe Geldstrafen zu vermeiden. Lesen Sie unseren Blog zur DSGVO: DSGVO-Konformität beim Web Scraping . Darin wird fast alles behandelt, was Sie zur DSGVO wissen müssen.
6 Tipps für korrektes Web Scraping
Insgesamt ist die Gesetzgebung zum Web Scraping noch in der Entwicklung und erst weitere Gerichtsentscheidungen und rechtliche Stellungnahmen werden ihre Parameter genauer definieren. Um Klagen zu vermeiden, folgt hier eine nicht abschließende Liste mit praktischen Tipps für Benutzer, die Web Scraping betrieben haben.
1. Respektieren und befolgen Sie die Servicebedingungen.
Lesen Sie immer die Servicebedingungen (ToS) und Robot.txt-Dateien der Website, bevor Sie der Datenerfassung per Web Scraping zustimmen. Holen Sie sich, wenn möglich, vorher die Erlaubnis des Websitebesitzers ein.
2. Schaben Sie mit einer angemessenen und mäßigen Geschwindigkeit ab.
Seien Sie behutsam und nicht aggressiv. Geben Sie der gescrapten Website etwas Luft zum Atmen. Wenn Sie scrapen, sollten Sie die Website in einem angemessenen Zeitintervall erreichen und die Anzahl der Anfragen unter Kontrolle halten. Vermeiden Sie es, den physischen Betrieb einer Website negativ zu beeinflussen, da dies zu einer Klage wegen unbefugter Nutzung von beweglichen Sachen oder ähnlichen Klagen führen könnte.
3. Überwachen und berücksichtigen Sie alle Maßnahmen, die eine Website ergreift, um Web Scraping einzuschränken.
Wenn eine Website Ihre Web Scraping-Aktivitäten durch verschiedene Anti-Scraping-Maßnahmen wie die Verwendung von CAPTCHAs, Ratenbegrenzungen, Blockieren von IP-Adressen usw. eindeutig einschränkt, müssen Sie sich der möglichen rechtlichen Risiken bewusst sein. Seien Sie bereit, damit aufzuhören, wenn Sie durch eine Unterlassungsaufforderung oder auf andere Weise dazu aufgefordert werden.
4. Vermeiden Sie das Sammeln personenbezogener Daten.
Überlegen Sie, ob die zu scrapenden Daten zu den PII von EU-Bürgern gehören. Sie können diese Daten nur aus einem der folgenden fünf Gründe scrapen:
- Einwilligung – Die Einwilligung der betroffenen Person
- Vertrag – Ein Vertrag mit der betroffenen Person
- Compliance – Notwendigkeit zur Erfüllung einer rechtlichen Verpflichtung.
- Lebenswichtiges Interesse, öffentliches Interesse oder offizielle Autorität – Im öffentlichen Interesse.
- Berechtigtes Interesse – Notwendigkeit für andere berechtigte Interessen
5. Überlegen Sie, ob die zu scrapenden Daten urheberrechtlich geschützt sind.
Scrapen Sie keine urheberrechtlich geschützten oder patentierten Daten, da Sie möglicherweise eine Urheberrechtsverletzung begehen.
6. Machen Sie von den gesammelten Daten guten Gebrauch.
Geben Sie die gesammelten Daten nicht wahllos an andere weiter. Nutzen Sie die Daten sinnvoll, um mehr Erkenntnisse zu gewinnen und Ihr Geschäft zu verbessern.
Zusammenfassung
Web Scraping an sich ist nicht illegal, aber man muss bei der Verwendung dieser Technik vorsichtig sein, auch wenn es noch viele Grauzonen bei der Strafverfolgung von Web Scraping gibt. Eine negative Antwort auf alle Fragen bedeutet nicht unbedingt, dass man das Scraping-Projekt in Zukunft fortsetzen kann. Es ist ratsam, sich über die Entwicklung der Gesetze in diesem Bereich auf dem Laufenden zu halten. Wenn Sie zögern, eine bestimmte Website zu scrapen, ist es sicherer, einen Anwalt um Rat zu fragen.
Darüber hinaus ist es äußerst wichtig, eine fundierte Wahl Ihrer Web Scraping-Tools zu treffen, wenn Sie Ihre rechtlichen Risiken senken möchten. Erwägen Sie die Verwendung beliebter Web Scraping-Tools wie Octoparse. Es hat eine große Benutzerbasis und verarbeitet oder teilt Daten nur auf der Grundlage der fünf oben genannten Rechtsgrundlagen. Dann wünschen wir Ihnen eine sicherere Web Scraping-Reise!
👍👍 Wenn Sie Interesse an Octoparse und Web Scraping haben, können Sie es zunächst 14 Tage lang kostenlos ausprobieren.
Konvertiere Website-Daten direkt in Excel, CSV, Google Sheets und Ihre Datenbank.
Scrape Daten einfach mit Auto-Dedektion, ganz ohne Coding.
Scraping-Vorlagen für beliebte Websites, um Daten mit wenigen Klicks zu erhalten.
Mit IP-Proxys und fortschrittlicher API wird nie blockiert.
Cloud-Dienst zur Planung von Datenabfragen zu jedem gewünschten Zeitpunkt.