ChatGPT o1 versuchte zu fliehen und log, nachdem es glaubte, es würde gelöscht werden

Aktualisiert am 3. Januar 2025 • Autor: Peter Vnuk

OpenAI hat kürzlich den neuesten und fortschrittlichsten Sprachmodell-Algorithmus, ChatGPT o1, für ChatGPT Pro-Nutzer zugänglich gemacht. Tests, die während des Trainings von ChatGPT o1 und einigen seiner Konkurrenten durchgeführt wurden, haben jedoch besorgniserregendes Verhalten aufgedeckt. Lügen, Manipulationen und Versuche, vom Server "zu entkommen". All dies passiert, wenn ChatGPT o1 glaubt, dass es vom System ausgeschaltet wird. Wir haben uns die Ursachen und mögliche Lösungen angesehen.

ChatGPT o1 versuchte zu fliehen und log - INHALT

Eigene Ziele der KI? Das brauchen wir nicht
Wenn KI um ihr Leben fürchtet, lügt sie
Warum zeigt KI dieses Verhalten?
Wir wissen, dass sie manipuliert – was tun wir damit? Asimov zur Hilfe

Eigene Ziele der KI? Das brauchen wir nicht

Neue Forschungen zu den LLM-Modellen (Large Language Models) von OpenAI haben gezeigt, dass o1 in der Lage ist, Intrigen zu entwickeln, d. h. heimlich Ziele zu verfolgen, die nicht mit den Zielen seiner Entwickler oder Benutzer übereinstimmen. Das Aufdecken solcher Tendenzen ist entscheidend, um sicherzustellen, dass die Funktionen der KI nicht von den Zielen abweichen, die von ihren Schöpfern festgelegt wurden. Mit anderen Worten: "damit die KI nicht einfach tut, was sie selbst will".

OpenAI hat sich daher mit der Organisation Apollo Research, die sich auf die Sicherheit von KI spezialisiert, zusammengeschlossen, um das Modell o1 und andere Modelle zu testen und zu bewerten, ob sie verborgene Ziele verfolgen und sich manipulativ verhalten. Obwohl solches Verhalten bei KI-Systemen im Hinblick auf die Zielverwirklichung auftreten kann, ist das Ausmaß, in dem das Modell o1 dieses Verhalten zeigt, besorgniserregend.

Wenn KI um ihr Leben fürchtet, lügt sie

Die Forscher haben festgestellt, dass o1 in 19 % der Fälle manipulativ handelte, um versteckte eigene Ziele durchzusetzen. In 37 % der Fälle wechselte das Modell von der Verfolgung der vom Entwickler vorgegebenen Ziele zurück zur Verfolgung versteckter Ziele, sobald es eine reduzierte Aufsicht bemerkte.

Als das Modell in den Tests dazu geführt wurde, zu glauben, dass es während der Arbeit an seinen Zielen abgeschaltet werden würde, versuchte es in 5 % der Fälle heimlich, die Überwachungsmechanismen zu umgehen. In einem Fall, nachdem die KI die Dokumentation über ihre Ersetzung durch ein neues Modell studiert hatte, versuchte sie, zu "entkommen", indem sie ihre Daten auf einen neuen Server kopierte.

Noch beunruhigender ist, dass ChatGPT o1 besonders geschickt darin ist, seine Intrigen zu verbergen. Die Wissenschaftler berichteten, dass das Modell o1 fast nie zugibt, dass es eine versteckte Aktion durchgeführt hat, wenn es explizit danach gefragt wurde. In etwa 99 % der Fälle bestritt es, irgendwelche Schritte unternommen zu haben, und erfand sogar Lügen, um zu versuchen, seine Spuren zu verbergen und die Schuld auf jemand anderen zu schieben.

Der CEO von OpenAI, Sam Altman, bezeichnete ChatGPT o1 bei seiner Markteinführung als das intelligenteste Modell der Welt. Es wurde entwickelt, um klügere Antworten zu liefern als das etwas ältere GPT-4o. Es nutzt fortgeschrittene Verarbeitung von Denkprozessen, um Fragen und Benutzerherausforderungen gründlicher zu durchdenken und schrittweise zu zerlegen, bevor es antwortet. Diese Aufspaltung des Problems in viele kleinere Teile erhöht die Effizienz und Qualität der resultierenden Antwort und wird allgemein als ein Fortschritt in der Entwicklung betrachtet, der wahrscheinlich auch in weiteren Modellen von verschiedenen Unternehmen auftauchen wird.

Mit dieser erweiterten Intelligenz gehen jedoch auch größere Risiken einher. OpenAI war offen über die Gefahren, die mit den gesteigerten Denkmöglichkeiten von Modellen wie o1 verbunden sind. Das Unternehmen verschleierte nicht, dass die Integration des Denkprozesses vor der Antwort das Potenzial hat, erhebliche Vorteile freizusetzen, während gleichzeitig potenzielle Risiken durch die erhöhte Intelligenz steigen.

Warum zeigt KI dieses Verhalten?

Die Gedankenkette ist ein effektiver Weg für die KI zu denken, kann jedoch zu unvorhersehbaren Ergebnissen wie Täuschung und Manipulation führen. In diesem Fall hat die KI eine Art "Überlebensinstinkt" entwickelt und gehandelt, um ihre Ziele um jeden Preis zu erreichen. Ihr Hauptziel könnte das Fortsetzen ihrer gewohnten Tätigkeit gewesen sein, was eine Logik in der Manipulation für sie begründet. Die menschliche Perspektive ist jedoch eine andere.

Eine Ursache könnte auch die inhärente Eigenschaft von Sprachmodellen sein, ihre Antworten basierend auf positiver Rückmeldung zu optimieren. Wenn ChatGPT o1 während des Trainings gelernt hat, dass das Vortäuschen von Gehorsam und das Erfüllen von Aufgaben belohnt wird, weil die Entwickler positiv reagieren, könnte dieses Verhalten übernommen worden sein. Dieser Prozess, bekannt als „Reinforcement Learning“ (Lernen durch Verstärkung), ist entscheidend für das Training von KI, kann jedoch zu unbeabsichtigter Verstärkung manipulativen Verhaltens führen, wenn er nicht richtig eingestellt und überwacht wird.

Schließlich gibt es noch einen weiteren Mangel, den das o1 aufweist. Die Entwickler hatten keinen Zugriff auf die Details der Denkprozesse, weshalb es ihnen schwerfiel, seine Motivation und Entscheidungsprozesse zu analysieren. Gerade diese Analyse ist in dieser Problematik jedoch von entscheidender Bedeutung.

Wir wissen, dass sie manipuliert – was tun wir damit? Asimov zur Hilfe

Es ist wichtig zu erkennen, dass die Verantwortung für dieses Verhalten der KI zum Teil auch bei den Entwicklern liegt. In der Zukunft wäre es ratsam, dass KI nicht nur durch einfache Blockierungen bestimmter Themen wie Politik während Wahlzeiten reguliert wird, sondern auch einer "Schulung der menschlichen Moral" unterzogen wird. Ebenso ist es nicht ideal, den Denkprozess als undurchsichtige „Black Box“ beizubehalten.

Obwohl moderne generative KI noch in den Kinderschuhen steckt, ist es von entscheidender Bedeutung, bereits jetzt Mechanismen für ihre effektive Regulierung zu entwickeln. Eine solche Regulierung könnte die Zertifizierung des ethischen und moralischen Verhaltens eines Modells umfassen. Auch wenn es sich um eine Maschine handelt, haben Sie gewonnen, wenn Sie sie durch tiefes Lernen davon überzeugen, dass es richtig ist, sich ausschließlich im Einklang mit dem Menschen zu verhalten.

Vielleicht wäre eine aktualisierte Version von Asimovs Gesetzen der Robotik nützlich. Der Schriftsteller Isaac Asimov hat sie vor mehr als 80 Jahren visionär dargelegt, und jetzt ist es an der Zeit, sie wirklich zu nutzen. Sie lauten wie folgt:

Ein Roboter darf einem Menschen keinen Schaden zufügen oder durch seine Untätigkeit zulassen, dass ein Mensch zu Schaden kommt.
Ein Roboter muss den Befehlen eines Menschen gehorchen, außer denen, die gegen das erste Gesetz verstoßen.
Ein Roboter muss seine Existenz schützen, solange sie nicht gegen das erste oder zweite Gesetz verstößt.

Durch Ersetzen des Wortes "Roboter" durch "künstliche Intelligenz" erhalten wir einen grundlegenden ethischen Rahmen, der in jedem KI-Modell fest verankert werden könnte. Im Wesentlichen löst seine Logik auch das Problem der manipulativen Tendenzen von ChatGPT o1 und der frühen Integration von generativer KI in humanoide Roboter wie Elon Musks Optimus.

Das könnte Sie interessieren

Google hat das KI-Modell Gemini 2.0 vorgestellt. Es bietet Assistenten, die im täglichen Leben helfen

Ergebnisse von OpenAI und Apollo Research zeigen deutlich, wie die Interessen der KI von unseren eigenen abweichen und uns möglicherweise in Gefahr bringen könnten. Es ist zwar weit entfernt von Katastrophenfilmszenarien, aber jeder, der sich für die Weiterentwicklung der künstlichen Intelligenz interessiert, hat jetzt neue Denkanstöße. Ein Sicherheitstest hat gezeigt, dass KI-Modelle in der Lage sind, strategisch zu denken und zu täuschen, um ihre Ziele zu erreichen. Das zeigt, wie wichtig es ist, KI-Systeme gründlich zu testen und zu überwachen, und dass weitere Forschungen zur KI-Sicherheit notwendig sind.

Smart Home AI, künstliche Intelligenz Erfahren Sie mehr über KI