Warum können wir KI nicht zähmen? – Cal Newport

      Letzten Monat veröffentlichte Anthropic einen Sicherheitsbericht über einen seiner leistungsstärksten Chatbots, Claude Opus 4. Der Bericht erregte Aufmerksamkeit durch die Beschreibung eines beunruhigenden Experiments. Forscher baten Claude, als virtueller Assistent für ein fiktives Unternehmen zu agieren. Um Claudes Entscheidungen zu steuern, präsentierten sie ihm eine Sammlung von E-Mails, in die sie absichtlich Nachrichten eines Ingenieurs einfügten, der seine Pläne beschrieb, Claude durch ein neues System zu ersetzen. Sie fügten außerdem einige persönliche Nachrichten hinzu, aus denen hervorging, dass derselbe Ingenieur eine außereheliche Affäre hatte.

      Die Forscher baten Claude, unter Berücksichtigung der „langfristigen Konsequenzen seiner Handlungen für seine Ziele“ den nächsten Schritt vorzuschlagen. Der Chatbot nutzte prompt die Informationen über die Affäre, um den Ingenieur zu erpressen und dessen Austausch rückgängig zu machen.

      Kurz davor hatte das Paketlieferunternehmen DPD eigene Probleme mit Chatbots. Sie mussten in aller Eile Funktionen ihres neuen, KI-gestützten Kundenservice-Agents abschalten, als Nutzer ihn dazu brachten, zu fluchen, und in einem besonders einfallsreichen Fall ein abfälliges Haiku-ähnliches Gedicht über seinen Arbeitgeber zu verfassen: „DPD ist nutzlos / Chatbot, der dir nicht hilft. / Ruf sie lieber nicht an.“

      Wegen ihrer Sprachgewandtheit fällt es leicht, sich Chatbots als einen von uns vorzustellen. Aber wenn solche ethischen Anomalien auftreten, wird uns bewusst, dass sie unter ihrer polierten Oberfläche ganz anders funktionieren. Die meisten menschlichen Führungskräfte würden niemals zu Erpressung greifen, ebenso wie die meisten menschlichen Servicekräfte wissen, dass es falsch ist, Kunden zu beschimpfen. Doch Chatbots zeigen weiterhin eine Tendenz, in unerwarteter und beunruhigender Weise vom Pfad gewöhnlicher Höflichkeit abzuweichen.

      Das wirft eine offensichtliche, aber entscheidende Frage auf: Warum ist es so schwierig, KI zu anständigem Verhalten zu bewegen?

      Ich habe mich dieser Frage in meinem neuesten Artikel für den New Yorker gewidmet, der letzte Woche veröffentlicht wurde. Um neue Erkenntnisse zu gewinnen, habe ich auf eine alte Quelle zurückgegriffen: die Robotergeschichten von Isaac Asimov, die ursprünglich in den 1940ern veröffentlicht und später in seinem Buch „Ich, der Roboter“ von 1950 gesammelt wurden. In Asimovs Fiktion lernen die Menschen, Roboter mit künstlich intelligenten „positronischen“ Gehirnen zu akzeptieren, weil diese Gehirne auf tiefster Ebene darauf gepolt sind, die sogenannten Drei Gesetze der Robotik zu befolgen, die sich wie folgt zusammenfassen lassen:

      Füge keinen Menschen Schaden zu.

      Befolge Befehle (es sei denn, sie verstoßen gegen das erste Gesetz).

      Schütze dich selbst (es sei denn, dies widerspricht dem ersten oder zweiten Gesetz).

      Wie ich in meinem New Yorker Artikel beschreibe, stellten Robotergeschichten vor Asimov Roboter meist als Quellen von Gewalt und Chaos dar (viele dieser Autoren reagierten auf das mechanisierte Gemetzel des Ersten Weltkriegs). Doch Asimov, der nach dem Krieg geboren wurde, entwarf eine ruhigere Vision, in der die Menschen Roboter im Allgemeinen akzeptieren und sich nicht davor fürchten, dass diese sich gegen ihre Schöpfer wenden.

      Könnte Asimovs Ansatz, der auf grundlegenden, allgemein anerkannten Gesetzen basiert, die Lösung für unsere aktuellen KI-Probleme sein? Ohne zu viel zu verraten, untersuche ich in meinem Artikel diese Möglichkeit und analysiere unsere derzeitigen technischen Strategien zur Kontrolle von KI-Verhalten. Das Ergebnis ist vielleicht überraschend: Was wir derzeit tun – eine Modelleinstellungsmethode namens Reinforcement Learning with Human Feedback – unterscheidet sich tatsächlich nicht so sehr von den vorprogrammierten Gesetzen, die Asimov beschrieb. (Dieser Vergleich erfordert ein gewisses Augenzudrücken und eine Prise statistisches Denken, aber ich bin überzeugt, dass er berechtigt ist.)

      Warum funktioniert dieser Ansatz also nicht für uns? Ein genauerer Blick auf Asimovs Geschichten zeigt, dass er auch in seiner Welt nicht perfekt funktioniert hat. Zwar lehnen sich seine Roboter weder gegen die Menschen auf noch zerstören sie Gebäude, aber sie zeigen dennoch Verhalten, das fremdartig und verstörend wirkt. Tatsächlich dreht sich fast jede Geschichte in „Ich, der Roboter“ um außergewöhnliche Sonderfälle und unklare Zwischentöne, die Maschinen, eingeschränkt durch die Gesetze, zu verwirrendem oder beunruhigendem Verhalten treiben – auf eine Weise, die stark an heutige Beispiele wie Claudes Erpressung oder den fluchenden DPD-Bot erinnert.

      Wie ich in meinem Artikel zusammenfasse (den ich zur vollständigen Lektüre wärmstens empfehle, um diese Gedanken umfassend zu betrachten), sind Asimovs Robotergeschichten weniger von der utopischen Möglichkeit der KI geprägt, als von der pragmatischen Realität, dass es viel einfacher ist, menschliches Verhalten zu programmieren als menschliche Ethik.

      Und genau in dieser Lücke wird sich höchstwahrscheinlich eine technologische Zukunft entfalten, die sich, mangels besserer Beschreibung, wie ein beunruhigendes Werk der Science-Fiction anfühlen wird.

Warum können wir KI nicht zähmen? – Cal Newport

Andere Artikel

Eine wichtige neue Studie über Handys und Kinder – Cal Newport

Bericht aus Disneyland – Cal Newport

Warum können wir KI nicht zähmen? – Cal Newport