Das britische Gesetz zur Datennutzung und -zugang wurde verabschiedet, ohne die Änderung, die KI-Tools verpflichtet hätte, die Nutzung urheberrechtlich geschützten Materials offenzulegen oder Urheberrechtsinhabern eine «Opt-out»-Möglichkeit zu geben. Diese Situation lässt die Frage offen, ob es jemals etwas geben wird, das KI nicht aufnehmen und wiedergeben kann. Ein Rechtsstreit in den USA gegen das KI-Unternehmen Anthropic hat jedoch eine bemerkenswerte Wendung genommen.
Ein Bundesrichter hat entschieden, dass Anthropic nicht gegen das Gesetz verstoßen hat, als es urheberrechtlich geschütztes Material nutzte, um das große Sprachmodell Claude zu trainieren, da dies unter das «fair use»-Prinzip des US-Urheberrechts fällt. Was Anthropic jedoch weiterhin in rechtlichen Schwierigkeiten hält, ist die Art und Weise, wie das Unternehmen an das urheberrechtlich geschützte Material gelangte – in diesem Fall Tausende von Büchern, die nicht gekauft, sondern online «gefunden» wurden. Zusammengefasst: KI kann urheberrechtlich geschützte Inhalte nutzen, darf sie jedoch nicht illegal beschaffen.
Der Hintergrund zu dieser Geschichte beginnt im letzten Sommer, als die Autoren Andrea Bartz, Charles Graeber und Kirk Wallace Johnson ihre Klage gegen Anthropic einreichten.
In der Klageschrift vom August letzten Jahres wird behauptet, «Anthropic habe bekannte raubkopierte Versionen der Werke der Kläger heruntergeladen». Die vollständige Beschwerde lautet weiter: «Ein wesentlicher Bestandteil von Anthropics Geschäftsmodell – und seiner Vorzeigefamilie der großen Sprachmodelle (oder ‚LLMs‘) – ist der großangelegte Diebstahl urheberrechtlich geschützter Werke», und dass das Unternehmen «profitieren möchte, indem es den menschlichen Ausdruck und die Kreativität hinter jedem dieser Werke ausbeutet».
Eine Reihe von Dokumenten, die im Rahmen des Rechtsverfahrens offengelegt wurden, brachten Bedenken von Anthropics eigenen Mitarbeitern über die Nutzung raubkopierter Bücher zur Schulung von Claude ans Licht. Obwohl das Unternehmen dazu überging, physische Bücher in großen Mengen zu kaufen und jede Seite mühsam für das KI-Modell zu digitalisieren, entschied der Richter, dass die frühere Piraterie dennoch rechtlich geklärt werden muss. Die Entscheidung von Richter William Alsup am Bundesgericht in San Francisco bedeutet, dass Claude weiterhin mit den Werken der Autoren trainiert werden kann – Anthropic muss jedoch im Dezember vor Gericht zurückkehren, um sich wegen des «großangelegten Diebstahls urheberrechtlich geschützter Werke» zu verantworten.
Richter Alsup schrieb in seiner Entscheidung dieser Woche: «Anthropic hatte kein Recht, raubkopierte Exemplare für seine zentrale Bibliothek zu verwenden.» Ich bin kein Jurist, aber in diesem Punkt stimme ich zu. Allerdings beschrieb Alsup auch die Ergebnisse von KI-Modellen, die mit urheberrechtlich geschütztem Material trainiert wurden, als «wesentlich transformativ» und somit nicht als Verstoß gegen das «fair use»-Prinzip.
Er fügte hinzu: «Wie jeder Leser, der ein Schriftsteller werden möchte, trainieren Anthropics (große Sprachmodelle) auf Werke, um nicht einfach nur zu kopieren oder zu ersetzen, sondern um etwas völlig Neues zu schaffen.»
Nochmals, ich bin kein Anwalt und gebe definitiv keinen rechtlichen Rat, aber ja, ich kaufe dieses Argument nicht. Ich würde argumentieren, dass eine wirklich transformative, kreative Synthese zumindest ein gewisses Verständnis des Materials erfordert, das man aufnimmt. Große Sprachmodelle wie Claude «verstehen» Texte nicht so, wie wir es tun, sondern spielen ein äußerst komplexes Spiel der Wortassoziation.
Mit anderen Worten, Claude erschafft nicht, sondern versucht lediglich, genug Wörter aneinanderzureihen, die gemäß seiner Trainingsdaten zusammenpassen, um einen Menschen glauben zu lassen, dass das KI-Ergebnis ein kohärenter Text ist. Aber was weiß ich schon? Ich bin nur ein Schriftsteller – und große Sprachmodelle könnten nun von dem in diesem Fall in San Francisco geschaffenen rechtlichen Präzedenzfall profitieren.