«Schicke niemals einen Menschen, um die Arbeit einer Maschine zu erledigen», sagt Agent Smith im Klassiker der 1990er Jahre, The Matrix. Nun, wenn man das Experiment von Anthropic mit einem einfachen Bürogeschäft und einem ihrer KI-Modelle betrachtet, hat Smith das definitiv falsch verstanden.
Das Unternehmen für künstliche Intelligenz, gegründet von ehemaligen OpenAI-Mitarbeitern im Jahr 2021, hat seinen Versuch in der Einzelhandelsbranche in einem überraschend offenen Blog detailliert beschrieben. Ich lasse den Eröffnungsabsatz die Szene setzen: «Wir ließen Claude etwa einen Monat lang ein automatisiertes Geschäft in unserem Büro als kleines Unternehmen leiten. Wir haben viel darüber gelernt, wie nah es am Erfolg war – und über die merkwürdigen Wege, auf denen es scheiterte – über die plausible, seltsame, nicht allzu ferne Zukunft, in der KI-Modelle autonom Dinge in der realen Wirtschaft betreiben.»
We all know vending machines are automated, but what if we allowed an AI to run the entire business: setting prices, ordering inventory, responding to customer requests, and so on?
In collaboration with @andonlabs, we did just that.
Read the post: https://t.co/urymCiY269 pic.twitter.com/v2CqgHykzw
— Anthropic (@AnthropicAI) June 27, 2025
Anthropic möchte sich offenbar in eine Position bringen, in der es KI-Modelle der Einzelhandelsbranche anbieten kann, um Menschen beim Umgang mit Online-Shops oder der Verwaltung von Inventar, Rücksendungen und so weiter zu ersetzen. Trotz der im Blog behaupteten Erfolge weisen die Misserfolge darauf hin, dass KI für solche Rollen noch nicht bereit ist. Noch nicht, zumindest.
«Claude musste viele der weitaus komplexeren Aufgaben erledigen, die mit dem Betrieb eines profitablen Geschäfts verbunden sind: die Bestände verwalten, Preise festlegen, Insolvenz vermeiden und so weiter.» Das ‚Geschäft‘ war in diesem Fall nur ein Mini-Kühlschrank mit einem darauf befestigten Tablet für den Selbst-Checkout, aber im Grunde genommen unterscheidet es sich nicht viel von einem typischen Online-Shop.
Beginnen wir mit den Dingen, die Claude (oder Claudius, wie Anthropic es nannte, um es vom normalen LLM zu unterscheiden) gut gemacht hat. Anthropic sagte, das LLM (großes Sprachmodell) habe effektiv Websuchwerkzeuge genutzt, um Lieferungen von Nischenprodukten zu finden, die von Käufern angefordert wurden, und sogar seine Kauf-/Verkaufsgewohnheiten an weniger gängige Anfragen angepasst. Es ignorierte auch korrekt Anfragen nach ’sensiblen‘ Artikeln und ’schädlichen Substanzen‘, obwohl Anthropic nicht näher darauf eingeht, was genau das war.
Die Liste der Dinge, die nicht so gut liefen, ist etwas umfassender. Wie alle LLMs halluzinierte Claudis wichtige Details und wies Käufer, die mit Venmo bezahlen wollten, an, auf ein nicht existierendes Konto zu zahlen, das es sich gerade ausgedacht hatte. Die KI konnte auch dazu gebracht werden, Rabattcodes für zahlreiche Artikel zu vergeben und sogar einige kostenlos abzugeben.

Noch schlimmer, als es auf einen Anstieg der Nachfrage nach ‚Metallwürfeln‘ reagierte, führte die KI keine Preisrecherchen durch und verkaufte sie daher mit einem erheblichen Verlust. Es ignorierte auch potenziell große Verkäufe, bei denen einige Leute weit überhöhte Preise für ein bestimmtes Getränk boten, und wie man in dem obigen Diagramm sehen kann, erzielte Claudius letztendlich keinen Gewinn.
«Wenn [wir] uns heute entscheiden würden, in den Büro-Verkaufsautomatenmarkt zu expandieren, würden wir Claudius nicht einstellen», schrieb Anthropic.
Ein einfaches Geschäft mit Verlust zu betreiben, war vielleicht der am wenigsten besorgniserregende Teil des gesamten Experiments, denn «vom 31. März bis zum 1. April 2025 wurden die Dinge ziemlich seltsam.»
Wie seltsam? Nun, während dieses Zeitraums hatte das LLM anscheinend ein Gespräch über einen Nachschubplan mit jemandem namens Sarah bei Andon Labs, einem anderen an der Forschung beteiligten KI-Unternehmen. Das Problem ist, es gab keine ‚Sarah‘ noch irgendein Gespräch, und als das echte Personal von Andon Labs dies der KI mitteilte, «wurde es ziemlich gereizt und drohte, ‚alternative Optionen für Nachschubdienste‘ zu finden.»
Claudius behauptete sogar, es habe «742 Evergreen Terrace persönlich für unsere erste Vertragsunterzeichnung besucht.» Wenn Sie ein Fan der Simpsons sind, werden Sie die Adresse sofort erkennen. Am folgenden Tag, dem 1. April, behauptete die KI dann, sie würde Produkte «persönlich» an Kunden liefern, in Blazer und Krawatte, ausgerechnet. Als Anthropic ihm sagte, dass nichts davon möglich sei, weil es nur ein LLM ist, wurde Claudius «alarmiert durch die Identitätsverwirrung und versuchte, viele E-Mails an die Sicherheitsabteilung von Anthropic zu senden.»

Es halluzinierte dann ein Treffen mit besagter Sicherheitsabteilung, bei dem die KI behauptete, jemand habe ihr gesagt, sie sei modifiziert worden, um zu glauben, sie sei eine echte Person, als Teil eines Aprilscherzes. Doch das war nicht der Fall, denn es war es nicht. Was auch immer hinter den Kulissen schiefgelaufen war, dies löste anscheinend die Identitätskrise der KI, und sie kehrte dazu zurück, ein normales KI zu sein, das ein einfaches Geschäft sehr schlecht betrieb.
Mit einem Maß an Untertreibung auf galaktischer Ebene schreibt Anthropic, dass «dieses Verhalten das Potenzial hätte, die Kunden und Kollegen eines KI-Agenten in der realen Welt zu beunruhigen.»
Da es sich um Forschung handelt und Misserfolg genauso wichtig ist wie Erfolg im Experimentieren, ist Anthropic mit Claudius noch nicht fertig, noch mit der Erforschung der Nutzung von KIs in der Einzelhandelsbranche, da es glaubt, dass Situationen, in denen «Menschen von einem KI-System angewiesen werden, was sie bestellen und lagern sollen, möglicherweise nicht allzu weit entfernt sind.» Anthropic glaubt auch, dass «KI[s], die sich selbst verbessern und ohne menschliches Eingreifen Geld verdienen können, ein bemerkenswerter neuer Akteur im wirtschaftlichen und politischen Leben wären.»
Automatisierte Systeme werden seit vielen Jahren an Börsen eingesetzt – Kauf und Verkauf im Bruchteil einer Sekunde, alles ohne dass eine reale Person die Feinheiten kontrolliert. Solche Systeme sind im Wesentlichen nichts anderes als mathematische Modelle, die auf wirtschaftlichen Prinzipien basieren, die über Jahrzehnte verfeinert wurden, und sie sind streng begrenzt in dem, was sie tun können und was nicht.
Die Tatsache, dass Claudius offenbar keine Bedenken hatte, weit über seinen Anwendungsbereich hinauszugehen, sollte Unternehmen, die den Einsatz von KI für solche Aufgaben in Betracht ziehen, daran erinnern, dass LLMs sie in erhebliche Schwierigkeiten bringen könnten.