Transformer-Architektur
Die neuronale Netzwerk-Architektur hinter ChatGPT, maschineller Übersetzung und moderner Sprachverarbeitung.
Die Transformer-Architektur wurde 2017 von Forschern bei Google in dem Paper "Attention Is All You Need" vorgestellt. Ihr zentraler Mechanismus heißt Self-Attention: Das Netz gewichtet für jedes Wort, wie relevant alle anderen Wörter im Kontext sind. Dadurch kann es Zusammenhänge über lange Textpassagen hinweg erfassen, was ältere Architekturen (RNNs, LSTMs) nur eingeschränkt konnten.
Der Transformer ermöglichte den Sprung von spezialisierten Systemen zu universellen Sprachmodellen. GPT, BERT, Claude, LLaMA, Gemini und praktisch alle modernen LLMs basieren auf dieser Architektur. Auch Bildgenerierung (Stable Diffusion, DALL-E), Proteinstruktur-Vorhersage (AlphaFold) und Musikgenerierung nutzen Transformer-Varianten.
Für ein einzelnes Paper hat "Attention Is All You Need" einen ungewöhnlich großen Einfluss auf die Welt gehabt. Die Autoren (Vaswani et al.) schufen die technische Grundlage für eine Industrie, die wenige Jahre später Milliarden bewegt. In der Geschichte der Informatik steht der Transformer in einer Reihe mit dem Von-Neumann-Rechner, dem TCP/IP-Protokoll und dem World Wide Web.
Gerade weil die Transformer-Architektur so universell ist, hat sie weit über die Sprache hinaus gewirkt. Dasselbe Grundprinzip, das Wörtern im Satz Aufmerksamkeit zumisst, lässt sich auf Bildpunkte, Töne oder Aminosäuren übertragen, was den Transformer zur gemeinsamen Grundlage von Textmodellen, Bildgeneratoren und sogar der Proteinforschung machte. Für die Science-Fiction ist das ein lehrreiches Beispiel: Der entscheidende Durchbruch zur sprechenden Maschine kam nicht von einem großen Theoriegebäude über Bewusstsein, sondern von einer eleganten mathematischen Idee, die niemand in dieser Tragweite erwartet hatte.
Verwandte Begriffe