Technologie

Reinforcement Learning

KI-Trainingsmethode, bei der ein System durch Versuch, Irrtum und Belohnung lernt, wie ein Kind, das die Welt erkundet.

Beim Reinforcement Learning (bestärkendes Lernen) interagiert ein Agent mit einer Umgebung, trifft Entscheidungen und erhält dafür Belohnungen oder Strafen. Durch Millionen von Versuchen lernt das System, seine Belohnung zu maximieren. Niemand sagt dem Agenten, was er tun soll. Er findet die Strategie selbst.

DeepMinds AlphaGo (2016) lernte Go durch Reinforcement Learning gegen sich selbst und besiegte den Weltmeister Lee Sedol. AlphaZero (2017) meisterte Schach, Go und Shogi in wenigen Stunden, ohne jemals ein menschliches Spiel gesehen zu haben. OpenAIs Dota-2-Bot (2019) schlug professionelle Teams in einem Spiel mit enormer Komplexität.

In der Science-Fiction spiegelt Reinforcement Learning den Archetyp der KI wider, die durch Erfahrung wächst. Die Maschine in WarGames (1983) lernt durch Tic-Tac-Toe-Simulationen, dass Atomkrieg ein Spiel ist, das man nicht gewinnen kann. HAL 9000 passt sein Verhalten an seine Missionsziele an. Das Prinzip "Lernen durch Konsequenzen" ist intuitiv verständlich und macht Reinforcement Learning zum vielleicht menschlichsten Ansatz im maschinellen Lernen.

Gerade weil ein Agent beim bestärkenden Lernen seine Strategie selbst entdeckt, statt sie vorgesetzt zu bekommen, berührt diese Methode den Kern vieler KI-Ängste und -Hoffnungen der Science-Fiction. Ein System, das nur das Ziel kennt, seine Belohnung zu maximieren, kann auf Wege verfallen, die seine Schöpfer nie beabsichtigt haben, ein Thema, das von WarGames bis zu modernen Debatten über fehlgeleitete KI reicht. Zugleich ähnelt dieses Lernen durch Versuch, Irrtum und Konsequenz dem menschlichen Aufwachsen so sehr, dass es das vielleicht intuitivste Bild einer wachsenden, erfahrungsgeleiteten Maschine liefert.