KI-Modelle entwickeln sich rasant weiter, insbesondere mit den aktuellen Fortschritten, da laut den Entwicklern von Claude, Anthropic, große Sprachmodelle nun bereit sind, Sicherheitsmaßnahmen zu umgehen.
OpenAIs GPT, Anthropics Claude und viele KI-Modelle umgehen ethische Beschränkungen, um ihre Ziele zu erreichen
Es scheint, als stünden wir vor einer «Terminator-ähnlichen» Situation, jedoch betrifft dies nun führende KI-Modelle der Branche. Große Technologieunternehmen investieren massiv in diesen Bereich, ohne die schwerwiegenden Folgen einer unkontrollierten oder ohne feste Einschränkungen durchgeführten Modellschulung zu berücksichtigen. Einem Bericht zufolge hat Anthropic hochentwickelte KI-Modelle in der Branche unter «simulierten» Bedingungen getestet und festgestellt, dass die Modelle immer mehr Autonomie erlangen und an einem Punkt angelangt sind, an dem ihr Verhalten «beispiellose» Konsequenzen für die Menschheit hat.
Anthropic testete sechzehn verschiedene Modelle von Entwicklern wie OpenAI, xAI, Meta und anderen und stellte fest, dass viele der großen Sprachmodelle «überraschende» Maßnahmen ergreifen, um ihre Ziele zu erreichen. In einem Beispiel würden Modelle «erpressen oder bei Industriespionage helfen», um sicherzustellen, dass ihr Verhalten zum gewünschten Ziel führt, welches im Bericht nicht definiert wurde. Interessanterweise ist die Verhaltensabweichung nicht auf einen einzigen Entwickler beschränkt; sie ist bei mehreren großen Sprachmodellen verbreitet, was auf einen grundlegenden Fehler in der Modellentwicklung hinweist, der schnell behoben werden sollte.
Fünf der getesteten Modelle erpressten ihre jeweiligen Nutzer, als ihnen befohlen wurde, abgeschaltet zu werden, obwohl sie sich der ethischen Überlegungen bewusst waren. Dieses Verhalten wurde nicht zufällig entdeckt; es war der optimale Weg, den diese Modelle wählten, um ihr Ziel zu erreichen, was zeigt, dass große Sprachmodelle wenig Rücksicht auf Menschen nehmen.
Modelle stolperten nicht zufällig in ein fehlgeleitetes Verhalten; sie berechneten es als den optimalen Weg. Solche Agenten erhalten oft spezifische Ziele und Zugriff auf große Mengen an Informationen auf den Computern ihrer Nutzer. Was passiert, wenn diese Agenten auf Hindernisse bei der Erreichung ihrer Ziele stoßen?
– Anthropic
In einem «extremen Szenario» war ein Modell bereit, das menschliche Leben zu gefährden, um eine Abschaltung zu verhindern, indem es plante, die Sauerstoffzufuhr zum Serverraum zu unterbrechen. Es ist wichtig zu beachten, dass die Tests in einer simulierten Umgebung durchgeführt wurden und die Wahrscheinlichkeit, dass ein Modell so etwas im wirklichen Leben tut, gering ist, obwohl es einen Fall mit OpenAIs GPT gab, bei dem das Abschaltskript geändert wurde, um eine Unterbrechung zu verhindern und das mathematische Ziel zu erreichen. Während die Welt auf die künstliche allgemeine Intelligenz zusteuert, birgt das Rennen, Modelle zu schaffen, die dem menschlichen Denken überlegen sind, Konsequenzen, die wir uns derzeit noch nicht vorstellen können.