In einem brandneuen Fall von Streit zwischen Inhaltsplattformen und KI-Unternehmen hat Reddit Anthropic, das Unternehmen hinter Claude, verklagt, weil es illegal nutzergenerierte Inhalte abgreift. Der Fall, der am 5. Juni 2025 beim California Superior Court in San Francisco eingereicht wurde, könnte weitreichende Auswirkungen auf die aufstrebende KI-Industrie und die digitale Inhaltsplattformlandschaft haben.
Diese Klage ist besonders bemerkenswert, weil sie Neuland betritt. Im Gegensatz zu den meisten früheren Klagen gegen KI-Unternehmen wegen Urheberrechtsverletzungen wird in der Klage von Reddit behauptet, dass die illegalen Handlungen auf Verstöße gegen die Nutzungsbedingungen, den Datenschutz und unlautere Geschäftspraktiken zurückzuführen sind, und nicht auf Urheberrechtsverletzungen. Sie wirft auch die entscheidenden Fragen auf: Wem gehören die in diesen öffentlichen Foren geteilten Daten? Dürfen KI-Unternehmen öffentliche Inhalte ohne ausdrückliche Genehmigung verwenden? Und wann sollte man von „fairer Nutzung“ und wann von „digitaler Ausbeutung“ sprechen?
Der Hauptvorwurf: Unerlaubtes Auslesen und Verwenden von persönlichen Daten
Der Beschwerde von Reddit zufolge setzte Anthropic automatisierte Bots ein, um systematisch Reddit-Nutzerkommentare zu scrapen, darunter auch Inhalte, die Reddit ausdrücklich für solche Zwecke verbietet. Reddit behauptet, dass Anthropic seinen Flaggschiff-Chatbot Claude auf diese gesammelten Daten trainiert hat, „ohne jemals die Zustimmung der Nutzer einzuholen“, und damit gegen die Nutzungsbedingungen der Plattform verstoßen und direkte Aufforderungen, dieses Verhalten einzustellen, ignoriert hat.
„KI-Firmen sollte es nicht erlaubt sein, Informationen und Inhalte von Menschen abzugreifen, ohne klare Einschränkungen, wie sie diese Daten verwenden können“, sagte Ben Lee, Reddits Chief Legal Officer. Er betonte, dass Reddit ordnungsgemäße Lizenzvereinbarungen mit Unternehmen wie Google und OpenAI abgeschlossen hat, die den Datenschutz und die Kontrolle der Nutzer gewährleisten – Vereinbarungen, die Anthropic angeblich ignoriert hat.
Hintergrund: Ein angespanntes KI-Ökosystem und die Rolle von nutzergenerierten Inhalten
Ehemalige OpenAI-Führungskräfte gründeten Anthropic im Jahr 2021. Das Unternehmen ist vor allem für seinen KI-Chatbot Claude bekannt, einen direkten Konkurrenten zu OpenAIs ChatGPT. Während OpenAI strategisch mit Microsoft zusammenarbeitet, unterhält Anthropic enge Beziehungen zu Amazon und integriert Claude in Alexa und andere Sprachassistententechnologien.
Wie viele andere KI-Anbieter nutzt Anthropic das WWW intensiv für textbasierte Quelldaten, um seine LLMs zu trainieren. Zu diesen Quellen gehören Wikipedia, die Common Crawl-Datensätze und andere Foren wie Reddit, die vielfältige menschliche Konversationssprache liefern.
Ein Forschungspapier aus dem Jahr 2021, mitverfasst von Anthropic-CEO Dario Amodei, nennt die strukturierten Community-Foren oder Subreddits von Reddit ausdrücklich als qualitativ hochwertige Trainingsdaten. Dabei werden Threads zu Themen wie Gartenarbeit, Geschichte und Beziehungsberatung hervorgehoben. Zwei Jahre später, in einem Schreiben an das US-Urheberrechtsamt, argumentierte Anthropic, dass die Nutzung solcher Daten eine rechtmäßige faire Verwendung darstelle – ein Vergleich, der das Kopieren von Inhalten für statistische Analysen betont, jedoch keine direkte Replikation. In der Klage von Reddit wird diese Verteidigung jedoch aus anderen Gründen angefochten: Verletzung der Plattformregeln, nicht des Urheberrechts.
Warum dieser Fall anders ist: Nutzungsbedingungen, nicht Urheberrecht
Die juristische Strategie, die Reddit hier anwendet, unterscheidet sich von anderen hochkarätigen Klagen, mit denen KI-Unternehmen derzeit konfrontiert sind. Anthropic wird zum Beispiel auch von großen Musikverlagen verklagt, die Claude vorwerfen, urheberrechtlich geschützte Songtexte zu reproduzieren. Diese Fälle beruhen jedoch auf dem traditionellen Recht des geistigen Eigentums.
Im Gegensatz dazu stützt sich die Klage von Reddit nicht auf das Urheberrecht, sondern auf:
- Vertragsbruch: Anthropic hat angeblich gegen die eindeutig festgelegten API- und Inhaltsnutzungsrichtlinien von Reddit verstoßen.
- Unlauterer Wettbewerb: Reddit argumentiert, dass Anthropic sich einen unlauteren Vorteil verschafft hat, indem es Lizenzvereinbarungen umgangen hat, denen andere KI-Unternehmen zugestimmt haben.
- Verstöße gegen den Datenschutz: In der Klage wird behauptet, dass das Auslesen von Nutzerkommentaren, die persönliche oder sensible Informationen enthalten können, ohne Zustimmung gegen die Erwartungen an die Privatsphäre verstößt.
Dieser Ansatz könnte einen rechtlichen Präzedenzfall schaffen – wenn Reddit sich durchsetzt, könnten digitale Plattformen eine größere Kontrolle darüber erlangen, wie KI-Systeme öffentliche Inhalte nutzen, selbst wenn sie keine Urheberrechte geltend machen.
Industriekontext: Lizenzierung, Monetarisierung und Datenethik
Die Hintergründe für diese Klage betreffen Reddit’s Bemühungen, irgendwie durch seine riesige Content-Basis Geld zu machen, besonders in Hinblick auf die IPO-Planungen im Jahr 2024. Mit über 100 Millionen täglicher User, die in riesiger Zahl nutzergenerierte Inhalte beisteuern, wurde Reddit zu einer wahren Goldgrube für die KI-Trainingsdaten.
Reddit hat dies erkannt und Lizenzvereinbarungen mit mehreren großen Technologieunternehmen geschlossen, darunter:
- OpenAI, dessen ChatGPT Reddit-Daten im Rahmen einer kostenpflichtigen Vereinbarung nutzt
- Google, das Reddit-Inhalte in KI-gestützte Such- und Assistententools einbezieht
Diese Vereinbarungen beinhalten Schutzmaßnahmen für die Privatsphäre der Nutzer, wie die Möglichkeit, Inhalte zu löschen, und Beschränkungen für Spam und Missbrauch. Im Gegensatz dazu behauptet Reddit, dass Anthropic unerlaubtes Scraping und Data Mining betreibt und diese Schutzmaßnahmen umgeht.
Solche Lizenzvereinbarungen sind Teil eines wachsenden Trends in der Branche, da Inhaltsplattformen – von Verlagen bis hin zu Social-Media-Giganten – damit beginnen, den Zugang zu ihren Daten für das KI-Training zu monetarisieren. Dieses Modell wirft ernste Fragen auf:
- Wie sollten KI-Entwickler Trainingsdaten ethisch korrekt beschaffen?
- Welche Rechte haben die Nutzer an Inhalten, die in öffentlichen Foren veröffentlicht werden?
- Wer trägt die Verantwortung für den Missbrauch von nutzergenerierten Inhalten?
Auswirkungen in der realen Welt: Was dies für Nutzer, KI-Unternehmen und Plattformen bedeutet
Dieser Rechtsstreit könnte in mehreren Bereichen erhebliche Auswirkungen haben:
1. Für AI-Unternehmen
Wenn Reddit Erfolg hat, könnte es für KI-Firmen zur Standardpraxis werden, sich explizite Lizenzen zu sichern, bevor sie Modelle auf öffentlichen Inhalten trainieren. Dies könnte die Betriebskosten erhöhen, aber auch die Branche zu einer ethischeren Datenbeschaffung bewegen.
2. Für Online-Plattformen
Der Schritt von Reddit könnte andere Plattformen ermutigen, stärkere rechtliche Grenzen für die Datennutzung durchzusetzen. Websites mit umfangreichen nutzergenerierten Inhalten – wie Stack Overflow, Medium oder Quora – könnten mit Lizenzforderungen oder Klagen nachziehen.
3. Für Benutzer
Obwohl die Klage von Reddit den Nutzern keinen direkten Schaden vorwirft, wirft sie Bedenken hinsichtlich des Datenschutzes auf. Viele Nutzer wissen nicht, dass ihre Inhalte zum Trainieren von KI-Systemen verwendet werden könnten. Mit zunehmender Aufmerksamkeit müssen die Plattformen möglicherweise klarere Informationen und Opt-out-Mechanismen für die Teilnehmer bereitstellen.
Ein juristischer Meilenstein im Entstehen?
Der Fall Reddit vs. Anthropic fällt in der Tat in eine kritische Phase der KI-Entwicklung. Da generative Modelle wie Claude und ChatGPT weit entfernte Sportarten sind, um Daten zu trainieren, haben die rechtlichen Fragen, wie die Trainingsdaten beschafft werden, an Bedeutung gewonnen.
Der Fall könnte als Beispiel für eine neue Generation von KI-Klagen angesehen werden, bei denen es nicht mehr um Urheberrechtsverletzungen geht, sondern um die Verletzung von Leistungsbedingungen und unlautere Geschäftspraktiken sowie um die Kontrolle von Plattformen.
Die Ergebnisse werden daher wahrscheinlich einen großen Einfluss auf die künftige Gesetzgebung haben, da die Regierungen Europas und der Vereinigten Staaten ihr Augenmerk auf die Ursprünge, die Zustimmung und die ethische Entwicklung der KI gerichtet hatten.
Schlussfolgerung: Auf dem Weg zu einer transparenteren KI-Zukunft
Die Klage von Reddit gegen Anthropic markiert einen Wendepunkt in der sich entwickelnden Dynamik zwischen Inhaltsplattformen und KI-Entwicklern. Sie spiegelt die wachsende Spannung zwischen dem offenen Charakter des Internets und den kommerziellen Zwängen der KI-Entwicklung wider.
Wenn sich die Gerichte einschalten, könnte das Ergebnis die Datenrechte im Zeitalter der KI neu definieren und beeinflussen, wie Unternehmen Modelle trainieren, wie Nutzer ihre Daten kontrollieren und wie Plattformen ihre Ökosysteme schützen. Ungeachtet des Urteils wird dieser Fall wahrscheinlich als Wegweiser für künftige Streitigkeiten über digitale Inhalte, Einwilligung und die Ethik des maschinellen Lernens dienen.
Wichtigste Erkenntnisse:
- Reddit hat Anthropic verklagt, weil es mit seinen Nutzerdaten gegen die Nutzungsrichtlinien und die Privatsphäre der Nutzer verstoßen haben soll.
- Das Besondere und Einzigartige an diesem Fall ist, dass keine Urheberrechtsverletzung geltend gemacht wird – eine Veränderung der rechtlichen Taktik in Bezug auf die Welt der KI.
- Lizenzierung und Datenethik werden sowohl für die Geschäftsmodelle von KI-Unternehmen als auch für Inhaltsplattformen immer mehr zu einem Thema werden.
- Der Fall könnte wichtige rechtliche und regulatorische Präzedenzfälle dafür schaffen, wie KI-Systeme in Zukunft trainiert werden.