Ein Leitfaden zur Verhinderung von Web Scraping | Shenyang Motorcycle Light Group

Dan Pinto, Mitbegründer und CEO von Fingerprint, befasst sich mit der Begeisterung rund um Web Scraping, seinen rechtlichen und ethischen Auswirkungen und den Strategien für Unternehmen, ihre Daten vor Scraping-Bots zu schützen.

Daten-Scraping, insbesondere Web-Scraping, beschäftigt Technologieführer, Regulierungsbehörden und Verbraucherschützer. Führungskräfte von einem Dutzend internationaler Datenschutzgruppen schickten Social-Media-Netzwerken eine ErklärungÖffnet ein neues Fenster, in der sie sie auffordern, Benutzerinformationen vor Scraping-Bots zu schützen. Unterdessen verklagte X Corp (früher bekannt als Twitter) vier namentlich nicht genannte Personen wegen Scraping seiner Website. Auch Google und OpenAI sehen sich mit Klagen wegen Datenschutz- und Urheberrechtsverletzungen im Zusammenhang mit Web Scraping konfrontiert.

Daten-Scraping ist nicht illegal. Es ist ein großes Geschäft. Experten gehen davon aus, dass der Marktwert von Web-Scraping-Software bis 2030 fast 1,7 Milliarden US-Dollar erreichen wird, gegenüber 695 Millionen US-Dollar im Jahr 2022. Scraping kann nützlich sein, da es uns ermöglicht, Flugpreise zu verfolgen oder Produkte auf verschiedenen Websites zu vergleichen. Unternehmen nutzen es, um Marktforschung zu betreiben oder Informationen zusammenzufassen. Beliebte Large Language Models (LLMs) wie Bard und ChatGPT werden auf Scraped-Daten trainiert.

Web Scraping gibt es schon seit vielen Jahren. Warum ist es zu einem Schlagwort geworden, das so viel Besorgnis erregt? Und was können Unternehmen dagegen tun?

Beginnen wir mit den Grundlagen. Beim Web Scraping werden in der Regel Bots eingesetzt, um Informationen von Websites zu extrahieren. Die Praxis hat viele Anwendungen, von hilfreich bis berüchtigt.

Web Scraping unterscheidet sich vom Web Crawling. Suchmaschinen verwenden Webcrawler, um Webseiten zu indizieren und Suchergebnisse für Benutzer bereitzustellen, die einem Link zur Quelle folgen. Beim Data Scraping werden die Daten von der Seite extrahiert und an anderer Stelle verwendet. Um eine Analogie zu verwenden: Beim Crawlen wird eine Liste der auszuleihenden Bibliotheksbücher erstellt. Erstellen Sie Kopien der Bücher, die Sie mit nach Hause nehmen können.

KI-Scraping hingegen bewegt sich in einer Grauzone, da es keinen Wert an den ursprünglichen Inhaltsersteller zurückgibt. Je stärker der Wertfluss vom ursprünglichen Autor getrennt ist, desto unethischer ist das Data Scraping.

Weitere Informationen: Bekämpfung von Phishing- und Business-E-Mail-Compromise-Angriffen

Wir alle haben wahrscheinlich unter anderem Web Scraping auf Reisesuchseiten, Immobilienanzeigen und Nachrichtenaggregatoren gesehen. Die Popularität der generativen KI bringt jedoch Bedenken in den Vordergrund. Ingenieure trainieren diese Modelle anhand von Daten, einschließlich persönlicher Informationen und geistigem Eigentum, die aus dem Internet stammen. Das LLM könnte die proprietären Informationen reproduzieren, ohne den Urheber ordnungsgemäß zu benennen. Experten gehen davon aus, dass diese UrheberrechtsproblemeOpens a new window zum Obersten Gerichtshof der USA führen werden.

Darüber hinaus werden Scaper immer fortschrittlicher. Während Scraping technisch gesehen nicht als Datenverstoß gilt, nutzen viele böswillige Akteure die Informationen für böse Zwecke, darunter:

Sogar Schaber mit guten Absichten erzeugen Welleneffekte. Bots verbrauchen bei jedem Website-Besuch Bandbreite, was zu längeren Ladezeiten, höheren Hosting-Kosten oder Dienstunterbrechungen führt. Und daraus resultierender doppelter Inhalt kann der Suchmaschinenoptimierung schaden.

Politische Entscheidungsträger und Regierungsbehörden überlegen derzeit, wie sie Scraping-Bots Einhalt gebieten können. Jüngste Urteile deuten jedoch darauf hin, dass Vorschriften Bots möglicherweise Zugriff auf öffentlich verfügbare Informationen gewähren.

Unabhängig von ethischen Fragen können Unternehmen entscheiden, welche Daten sie zur Verfügung stellen.

Es ist unmöglich, 100 % der Scraping-Versuche zu blockieren. Stattdessen sollte Ihr Ziel darin bestehen, Scrapern den Zugriff auf Ihre geschützten Daten zu erschweren. Hier ist wie.

Bots senden viele Signale, die menschliche Benutzer nicht senden, darunter Fehler, Netzwerküberschreibungen und Inkonsistenzen bei Browserattributen. Die Geräteintelligenz erkennt diese Signale, um potenzielle Scraper zu unterscheiden. Bots verhalten sich auch anders als Menschen. Geräteintelligenz hilft bei der Überwachung des Besucherverhaltens, um verdächtige Aktionen wie viele Anmeldeversuche oder wiederholte Anfragen nach denselben Informationen zu erkennen.

Realistisch gesehen müssen Unternehmen mehrere Sicherheitsfunktionen kombinieren, um ausreichende Hürden für Bots zu schaffen. Da Scraper immer ausgefeilter werden, müssen die Schutzmaßnahmen häufig aktualisiert werden, um ihre Wirksamkeit aufrechtzuerhalten.

Werden wir die Web-Scraping-Debatte jemals lösen? Vielleicht nicht. Obwohl die Praxis weder grundsätzlich gut noch schlecht ist, müssen Unternehmen entscheiden, wie zufrieden sie mit dem Ausmaß der Datenoffenheit sind, und entsprechend handeln, um ihre Vermögenswerte zu schützen.

Warum sind ethische Bedenken wichtig und wie können Unternehmen Daten vor Scraping-Bots schützen? Teilen Sie uns dies auf Facebook, X, X und LinkedIn mit. Wir würden uns freuen, von Ihnen zu hören!

Bildquelle: Shutterstock

CEO und Mitbegründer, Fingerprint

Robots.txt:Webanwendungs-Firewall (WAF):CAPTCHAGeräteintelligenzTreten Sie Spiceworks bei