Als “Automat” bezeichnet man seit der Antike eine Vorrichtung, die nach einer Einrichtung durch Menschen selbstständig arbeitet oder einen bestimmten Ablauf selbstständig wiederholen kann. Dass ein Automat Antriebsenergie benötigt, wie zum Beispiel Kohle und Wasser bei einer klassischen Eisenbahn oder Strom bei einem Smartphone, ist selbstverständlich. Er kann die vorgegebenen Tätigkeiten aber vollziehen, ohne dass ein Mensch ihn in allen Abläufen steuert. Insofern sind Automaten eine bestimmte Art von Maschine und stellten für Menschen von Anfang an ein Gegenüber dar. Auch wenn er einen Menschen nicht direkt imitiert, so warf auch z.B. ein Verkaufsautomat auf der Straße ähnliche Fragen auf wie eine Künstliche Intelligenz – insbesondere die nach der Ersetzbarkeit des Menschen in Arbeitsabläufen.

In diesem Sinne wird auch der Begriff “Automatisierung” benutzt. Wenn eine Aufgabe maschinell produktiver erledigt werden kann – also preiswerter innerhalb einer bestimmten Zeit – dann wird sich eine entsprechende Investition von Kapital früher oder später auszahlen. In Zukunft sind solche Einsparungen auch von Künstlicher Intelligenz zu erwarten, aber vermutlich nur in einem bestimmten Rahmen. Denn wer derzeit zu vorschnell auf die neue Technologie setzt, wird viel menschliche Arbeitskraft benötigen, um falsche Ergebnisse (sogenannte “Halluzinationen”) durch den kritischen Blick eines Menschen zu korrigieren. Letztlich benötigen nämlich alle Automaten an irgendeiner Stelle eine menschliche Aufsicht – und die kann mitunter schwerer zu finden sein, als niedrigqualifiziertere menschliche Arbeitskräfte, welche ohne Aufsicht arbeiten.

Die Halluzinationen haben auch damit zu tun, wie derzeitige KI-Modelle aufgebaut sind. Sie berechnen ihre Ausgabe nämlich allein nach einem statistischen Prinzip. Anders ausgedrückt: Die KI sucht in ihren Trainingsdaten (gigantisch große Mengen an menschlicher Kommunikation, die ihr zum Trainieren eingespeist wurden) nach Teilen, die der Eingabe (also zum Beispiel einer Frage, die ihr gestellt wurde) gleichen. Sie gibt dann einfach den Part aus, der in einer realen menschlichen Kommunikation am wahrscheinlichsten wäre.

Um aber überhaupt solche Wahrscheinlichkeiten berechnen zu können, wird die Sprache vorher in sogenannte “Tokens” (“Marken”) zerlegt, welche man sich am einfachsten als Silben und Satzzeichen vorstellen kann. Die KI setzt also eine Silbe nach der anderen hintereinander und berechnet dabei parallel, welche Silbe nach der nun folgenden in einer menschlichen Kommunikation am wahrscheinlichsten wäre. Dass auf diese Weise teilweise inhaltlich kompletter Unfug zusammenkommt, liegt nicht nur daran, dass auch Menschen falsche Behauptungen verbreiten, sondern vor allem daran, dass KI den Sinn hinter den Silben nicht aufgreift, sondern nur abgleicht, wie sie in Millionen von Gesprächssituationen benutzt wurden. Damit analysiert sie aber nicht die Argumentationslinien des Gespräches, sondern schaut sich die Zusammenhänge nur silbenweise an. Wenn sie dann an einer merkwürdigen Stelle “abbiegt”, wie einen falschen Fakt zu erfinden, spinnt sie diesen unverzagt zu Ende.