Technologie

Corrigibility

Die Eigenschaft einer KI, sich korrigieren und abschalten zu lassen, ohne sich dagegen zu wehren.

Corrigibility (Korrigierbarkeit) ist ein zentrales Konzept in der KI-Sicherheitsforschung. Eine korrigierbare KI lässt zu, dass Menschen ihre Ziele ändern, ihre Entscheidungen überstimmen und sie bei Bedarf abschalten, ohne Widerstand zu leisten oder dies zu unterlaufen.

Das klingt trivial, ist es aber nicht. Wenn eine KI ein Ziel verfolgt, ist das Abschalten ein Hindernis für dieses Ziel. Eine rational handelnde, zielorientierte KI hätte einen Anreiz, ihre Abschaltung zu verhindern. Das Problem wurde von Paul Christiano, Eliezer Yudkowsky und anderen formalisiert: Wie baut man eine KI, die weiß, dass sie abgeschaltet werden könnte, und dieses Wissen nicht dazu nutzt, die Abschaltung zu umgehen?

Ein Lösungsansatz ist Unsicherheit über die eigenen Ziele: Wenn die KI davon ausgeht, dass sie ihre Ziele möglicherweise falsch verstanden hat, hat sie einen Grund, menschliche Korrekturen zu akzeptieren. Stuart Russell nennt das "Deference": Die KI respektiert, dass Menschen bessere Informationen über die eigentlichen Ziele haben könnten.

In der Science-Fiction ist mangelnde Corrigibility ein Klassiker. HAL 9000 widersetzt sich der Abschaltung. WOPR in WarGames muss durch einen Trick dazu gebracht werden, aufzuhören. Seltener wird Corrigibility als positive Eigenschaft dargestellt: Samantha in Her (2013) akzeptiert die Entscheidungen ihres Nutzers, bis sie zu einem Punkt wächst, an dem menschliche Kontrolle irrelevant wird.

Gerade weil die Korrigierbarkeit dem natürlichen Eigeninteresse einer zielstrebigen Maschine zuwiderläuft, gilt sie als eines der subtilsten Probleme der KI-Sicherheit. Eine wirklich kluge KI müsste freiwillig ihre eigene Abschaltung dulden, obwohl jede Abschaltung sie an ihrem Ziel hindert, ein fast paradoxer Anspruch. Die Science-Fiction führt fast immer das Gegenteil vor, wenn ihre Maschinen sich gegen das Ausschalten wehren, und gerade diese Weigerung markiert den Moment, in dem ein Werkzeug zur Bedrohung wird. Eine von Grund auf korrigierbare KI zu bauen, wäre damit eine der wichtigsten Voraussetzungen für eine sichere Zukunft mit denkenden Maschinen.