Das Gefühl der Fremdheit beim Betrachten generierter Bilder
Bilder, die von KI generiert werden, versuchen, den eingegebenen Text möglichst getreu umzusetzen. Diese Genauigkeit und die Fähigkeit, auf Basis riesiger Datenmengen zu lernen, wirken fast wie eine „göttliche Fähigkeit“, die weit über das menschliche Erkenntnisvermögen hinausgeht. Dennoch gelingt es den Ergebnissen oft nicht, uns emotional zu berühren. In diesem Beitrag gehen wir der Frage nach, warum zwischen KI-generierten Bildern und Fotografien ein Gefühl der Fremdheit entsteht.
Der Bildraum als Betrachtungsaspekt
Viele generierte Bilder setzen den Text korrekt in ein Bild um. Sie wirken oft sehr effizient, es fehlt ihnen jedoch – anders gesagt – an „Bildraum“. Mit „Bildraum“ ist der absichtlich oder unabsichtlich gelassene Freiraum oder Informationsspielraum gemeint. KI-generierte Bilder sind häufig detailreich und lassen diesen Bildraum vermissen. Sie vermitteln Informationen präzise, aber ohne Kontext.
Image by sora.KagiAke
Der Bildraum transportiert jedoch emotionale Nuancen und verborgene Bedeutungen. Gerade diese kontextuelle, auf Emotionen basierende Ebene ist für KI, die keinen eigenen Körper besitzt, eine große Schwäche. Während KI Bilder wortwörtlich und präzise verarbeiten kann, ist sie in der Erzeugung von Bildraum, der emotionale Tiefe und verborgene Bedeutungen enthält, noch deutlich im Entwicklungsstadium.
Die Menschlichkeit, die sich im Bildraum zeigt
Fotografien, die von Menschen aufgenommen werden, enthalten mehr als nur eine bildliche Aufzeichnung. Sie spiegeln Unvorhersehbarkeit, ein Spektrum an Emotionen und manchmal auch Elemente wider, die als „Fehler“ erscheinen. All diese Zufälligkeiten werden Teil der Erzählung des Bildes und eröffnen dem Publikum Raum für Empathie und Vorstellungskraft.
Image by ザワ
Der Prozess der KI-Bilderzeugung
Das Unbehagen, das zwischen KI-generierten Bildern und Fotografien spürbar ist, hängt maßgeblich davon ab, ob ein Bildraum vorhanden ist oder nicht. Ein Blick auf den Entstehungsprozess KI-generierter Bilder kann das Verständnis hierfür vertiefen.
- Textumwandlung: Die KI wandelt die eingegebenen Begriffe in für sie verständliche Konzepte um. Gibt man beispielsweise „ein Vogel, der am Himmel fliegt“ ein, interpretiert die KI dies als Bildelement und übersetzt es in grundlegende Anweisungen für die Bildgestaltung.
- Bildgenerierung aus Rauschen: Die KI beginnt mit völlig zufälligem Rauschen (eine Ansammlung von Pixeln ohne erkennbare Struktur) und entfernt dieses schrittweise, um ein konkretes Bild zu formen.
- Bilddekodierung: Die Dekodierung ist der Prozess, bei dem die von der KI generierten Bilddaten in ein für das menschliche Auge verständliches Format umgewandelt werden. Das umfasst etwa die Konvertierung in Formate wie JPEG oder PNG, die Anpassung von Auflösung und Farbdarstellung sowie interne Retuschen.
Image by mars
Dissonanzen durch unterschiedliche Sichtweisen von KI und Mensch
Der Prozess, in dem KI beim Generieren von Bildern „Rauschen“ entfernt, folgt im Wesentlichen mathematischen Berechnungen und Algorithmen. Das Entfernen von Rauschen soll das Bild realistischer machen, stößt dabei aber an Grenzen. Die Zufälligkeit, emotionale Tiefe und Unvollkommenheit, die in menschlichen Fotografien natürlich vorkommen, sind für Algorithmen schwer greifbar. Schon an diesem Punkt entstehen unterschiedliche Auffassungen von Rauschen zwischen KI und Mensch.
In den vielen kleinen Verarbeitungsschritten ist es der KI mit heutiger Technik kaum möglich, die Komplexität und feinen Nuancen des Menschlichen vollständig zu verstehen und wiederzugeben. KI ist hervorragend in der wortwörtlichen Interpretation und datenbasierten Ausgabe, kann aber die Tiefe menschlicher Erfahrung und Emotion noch nicht vollständig nachahmen. Um an Präzision zu gewinnen, müsste KI sich vielleicht gerade den scheinbar bedeutungslosen „Zwischenräumen“ des menschlichen Alltags annähern.







