KI und die bildenden Künste

Andrew Sempere @ EPFL Extension School · 15 Minuten

Künstliche Intelligenz zwingt uns zu hinterfragen, was wir sehen.

In der Kunst ging es schon immer um die geschickte Nutzung von Illusionen. Zeichnungen und Gemälde können z. B. optische Täuschungen erzeugen: überzeugende Szenen oder Figuren werden durch Farbtheorie, erzwungene Perspektive, perspektivische Verkürzungen oder Schattierungen geschaffen. Diese künstlerischen Fähigkeiten bewundern Betrachter. All diese Techniken werden eingesetzt, um ein Bild zu erzeugen, das das Auge täuscht.

Eine begabte Künstlerin kann ein Stück Papier und ein Stück Kohle nehmen und mit diesen einfachen Werkzeugen Tiefe erzeugen oder eine Welt aufbauen, die nur in unseren Köpfen existiert. Solche einzigartigen Fähigkeiten bestimmen im Grunde seit Jahrhunderten, wie wir in Europa Kunst bewerten. Je besser die Illusion, desto grösser der Künstler.

Ferdinand Hodler

Dieses Gemälde heißt "Die Straße nach Evordes" und wurde von Ferdinand Hodler gemalt (Bildquelle). Nur mit Farben auf einer flachen Leinwand erschafft der Künstler eine fesselnde Landschaft - eine mit Tiefe, Wärme und Wunder. Das Zwitschern der Vögel und das Gefühl einer frischen Sommerbrise auf der Haut scheinen nur ein paar Meter entfernt.

Was sollen wir also von einer Technologie halten, die selbständig eine überzeugende Illusion erzeugen kann? Sind computergenerierte Kunstwerke mehr oder weniger real als solche, die von einem Menschen erschaffen wurden? Wenn eine KI ein Gemälde produzieren kann, das wie ein da Vinci aussieht und auf uns auch so wirkt, ist es dann genauso wertvoll wie das Original?

Dieses Thema wird schon seit langem diskutiert. In den 1930er Jahren waren fotografische Verfahren bereits weit verbreitet. Zusammen mit der rasant wachsenden Zahl illustrierter Nachrichtenmagazine hatte das eine Spaltung der Kunstwelt zur Folge. So wurde unwiderruflich verändert, was es bedeutet, Bilder zu schaffen und ein Künstler zu sein.

Walter Benjamins bahnbrechender Aufsatz “Das Kunstwerk im Zeitalter seiner technischen Reproduzierbarkeit” von 1936 unterstrich diese Spaltung und zeigte sowohl die Probleme als auch die Chancen auf, die diese “ technische Reproduzierbarkeit” für die Kunstwelt mit sich bringt. Benjamin versuchte insbesondere, zu bestimmen, worin der Wert eines Originalkunstwerks liegt. Gleichzeitig erkannte er an, dass die weit verbreitete Reproduzierbarkeit Kunst zugänglicher macht.

Das Mona-Lisa-Dilemma

Nehmen wir da Vincis klassisches Gemälde, die Mona Lisa als Beispiel. Die Tatsache, dass das Bild nach einer kurzen Online-Suche leicht betrachtet werden kann, macht es zu einem noch wirkungsvolleren Kunstwerk – aber das Originalbild ist dadurch weniger einflussreich geworden. Die Aura des Originals sorgt zwar dafür, dass die Leute stundenlang Schlange stehen, um es zu sehen. Aber wir alle haben dieses Bild schon tausende Male gesehen – auf Postern, Briefmarken, Notizbüchern und auf Kleidung. Wir haben es so oft gesehen, dass es zu einem Klischee geworden ist.

In diesem Fall hat die Technologie die Bedeutung des ursprünglichen Bildes verändert. Aber die Debatte dreht sich nicht darum, ob es dadurch mehr oder weniger wertvoll geworden ist – stattdessen führt sie zu viel komplexeren und interessanteren Fragen. Worin genau liegt der Wert dieses Bildes? Wer ist dessen Urheber? Wem gehört die Illusion und was genau bedeutet sie? Kann sie von einem Objekt auf ein anderes übertragen werden?

Aber jetzt, in einem Zeitalter, in dem alles in digitaler Form existieren kann, gibt es manche Kunstwerke nicht einmal mehr in physischer Form. Und von bestimmten Kunstwerken gibt es vielleicht gar keine einmalige “Original”-Version mehr. Das “Original” könnte nur eines von vielen sein.

Was bedeutet das also für die Kunst und ihren Wert?

Träumen Androiden?

Anfang 2015 veröffentlichte Google Deep Dream (Tiefer Traum), mit der faszinierenden Behauptung, mit dieser Software könne man sehen, was im “Kopf” einer KI vorgeht, während sie “träumt”. Die Sache ist auf jeden Fall unterhaltsam anzuschauen – psychedelisch wirbelnde Farben lösen sich immer wieder auf geheimnisvolle Weise auf und verschwimmen zu Hundeköpfen. Wenn man dieser Software Glauben schenken darf, scheint diese KI letztlich alles für einen Hund zu halten.

Deep Dream

Visualisierung dessen, was eine KI, die auf die Erkennung von Hunden trainiert ist, anstelle des eigentlichen Inputs gerne sehen würde, d.h. wovon sie "träumt" (Bildquelle).

Aber das eigentliche Kunstwerk steckt im Titel dieses Projekts. Die Software träumt keineswegs im künstlerischen Sinne (und sie hat auch keine Tiefe), und die Hundebesessenheit ist eine Folge ihrer Programmierung. Deep Dream verwendet einen Datensatz, der aus Tausenden von Hundefotos besteht. Die KI-Träume scheinen nicht deshalb aus Hunden zu bestehen, weil die KI vom besten Freund des Menschen besessen ist, sondern weil wir Menschen wissen, was Hunde sind, und sie so bedeutsam finden, dass wir Tausende von Fotos von ihnen gesammelt haben.

Hinzu kommt, dass die Bilder zwar scheinbar Hunde darstellen, es aber eigentlich nicht tun. Für menschliche Augen erscheinen sie lediglich hundeähnlich – in Wirklichkeit sind sie eine Ansammlung von Pixeln, die so angeordnet sind, dass sie in etwa einem Objekt entsprechen, das wir Menschen als Hund bezeichnen würden.

Die Bilder der Software stammen aus dem Ausführen eines Klassifizierungsalgorithmus in umgekehrter Reihenfolge.1 Das Ganze ist zwar eine amüsante Provokation, aber der Computer versteht nicht wirklich, ob dieses Ergebnis, so seltsam es uns auch erscheinen mag, mehr oder weniger korrekt ist als die automatische Kennzeichnung2 eines Haustiers auf einem Smartphone.

Wir können nicht sagen, dass die KI träumt (oder halluziniert), weil sie keine Vorstellung davon hat, warum diese Dinge anfangs “normal” waren. Wir können nicht einmal behaupten, die KI hätte eine Vorliebe für Hunde: Sie gibt einfach die Daten wieder, mit denen sie gefüttert wurde. Die Software denkt nicht; genauso wenig wie ein Verstärker eine E-Gitarre spielt. Sie produziert lediglich anhand der Anweisungen der Menschen, die sie bedienen, ein Ergebnis.

Und dieses Ergebnis erscheint menschlichen Augen aus einem ähnlich einfachen Grund bewusstseinserweiternd: Wir haben psychedelische, menschliche Erfahrungen, zu denen wir Parallelen ziehen können. Die “Bedeutung”, die wir in diese Bilder hineinlesen, stützt sich auf unser eigenes internes “Klassifizierungssystem” und unsere Lebenserfahrungen.

Diese Beobachtung erhöht jedoch weder den Wert der Bilder, die Deep Dream erzeugt, noch schmälert sie diese – sie verschiebt lediglich die Verantwortung. Die KI produziert das Bild; doch es liegt an uns, das Ergebnis selbst zu bearbeiten, zuzuschneiden, auszuwählen, zu vergrössern und uns daran zu erfreuen – basierend auf unseren eigenen Erfahrungen. Die KI produziert das Rohmaterial – die Kunst und die Träume sind allerdings unsere.

Schreibe über das, was du kennst

Ein gängiges Sprichwort unter Schriftstellern lautet: “Schreibe über das, was du kennst.” Im Fall von KI geht es gar nicht anders. Eine KI kann nur Material produzieren, mit dem sie vertraut ist, zumindest bis dato. Alle KIs werden auf Trainingsdaten aufgebaut, und ihr Wissen über die Welt ist auf diesen Datensatz beschränkt.

Im Fall von Deep Dream wurde oft betont, dass das Ergebnis an “trippige” Bilder erinnert, die man sieht, wenn man unter dem Einfluss psychoaktiver Substanzen halluziniert. Wenn Androiden von elektrischen Schafen träumen, dann deshalb, weil wir sie mit einem Datensatz aus Schafbildern trainiert haben. Aber “träumen” sie überhaupt? Gibt es Parallelen zwischen menschlichen mentalen Prozessen und der Art und Weise, wie dieser Algorithmus funktioniert?

Bis zu einem gewissen Grad, ja. Aber es gab in den letzten Jahrzehnten eine deutliche Verschiebung in der KI-Forschung, die tiefgreifende Auswirkungen darauf hatte, welchen Platz diese Technologie in unserem täglichen Leben einnimmt.

Am Anfang der KI-Forschung und der Kybernetik in den 1940er Jahren lag der Schwerpunkt auf der Nachahmung menschlicher Intelligenz, mit dem Versprechen, dass eine Zukunft, in der das möglich ist, unmittelbar bevorstehe. Neuere Studien auf diesem Gebiet konzentrieren sich jedoch auf die Integration von KI und KI-ähnlicher Software in unser Leben, sodass es sich natürlich anfühlt. Niemand behauptet, dass KI tatsächlich lebendig ist oder organische Prozesse nachbildet.

Diese Verschiebung lässt sich bei zeitgenössischen Wissenschaftlern beobachten, z. B. bei Bruce Blumberg. Er ist “User Experience”-Designer und KI-Forscher und hat bereits am MIT und bei Apple gearbeitet. Blumberg beschäftigte sich mehrere Jahre mit der Entwicklung von Konversationsagenten3. Vorbild war dabei die nonverbale Kommunikation zwischen Menschen und ihren treuesten Gefährten. Sein Ausgangspunkt war das Interesse seines Sohnes für Schauhunde. Und das Ziel war nicht, eine KI zu entwickeln, die so intelligent ist wie ein Mensch, sondern eine KI, die “intelligent genug” und so zugänglich wie ein Haustier ist.

Während die Vorstellung einer konversationsfähigen, starken KI (für mehr Details dazu lesen Sie unseren Artikel: KI - zwei Buchstaben, viele Bedeutungen) weiterhin Science-Fiction-Autoren und -Fans beschäftigt, ist das, was dem derzeit am nächsten kommt, Siri – der persönliche Assistent, der auf Hunderten von Millionen iPhones auf der ganzen Welt zu finden ist. Siri und andere Geräte wie Amazons Alexa haben sicherlich ein eindeutig begrenztes Verständnis der Welt, aber sie sind gut genug, um Ihre Freunde über Kurzwahl anzurufen oder Ihnen einen Song vorzuspielen.

Die für schwache KI typische Nachahmung innerhalb eines bestimmten Bereiches ist nicht nur interessanter sondern auch wirtschaftlich rentabler als die starke KI, die wir aus Science-Fiction-Geschichten kennen. Schliesslich ist eine Illusion kontextspezifisch. Geben Sie einem Handy oder Computer Zugriff auf ein Adressbuch und einen Kalender, und eine relativ einfache App wird ziemlich nützlich und “intelligent”.

Eine sorgfältige Kontextualisierung ist auch für die Funktionsweise von Kunst eine Schlüsselkomponente. Die optische Täuschung von Tiefe in einem Gemälde existiert zum Beispiel nur, weil das Bild einen Rand hat und aus einer bestimmten Entfernung betrachtet wird. Bewegen wir uns zu weit weg oder gehen zu nah heran, verschwindet die Illusion. Wenn Sie einen Screenshot Ihres Lieblingsfilms unter der Lupe betrachten würden, würden sich die Geschichte und ihre Bedeutung auflösen und nur Pixel übrigbleiben.

Aber das Versprechen der technischen Bilderzeugung, insbesondere bei Fotografien mit hoher Auflösung, war schon immer Präzision – und somit implizit auch Wahrheit. Bilder sind Beweise, und innerhalb eines bestimmten Rahmens können sie uns Situationen oder Geschichten vorgaukeln, die vielleicht real sind, vielleicht aber auch nicht.

Fälschungen auf ganzer Linie

Während der US-Wahl 2020 behaupteten politische Einflussnehmer online, einen brisanten Bericht mit skandalösen Informationen über den Präsidentschaftskandidaten Joe Biden und seinen Sohn Hunter vorliegen zu haben.

Dieser “durchgesickerte” Bericht war von einem Schweizer Sicherheitsexperten namens Marten Aspen verfasst worden, der eine private Firma (Typhoon Investigations) leitete. Nachdem diese Information die grossen Nachrichtenagenturen erreicht hatte, begannen Journalisten zu recherchieren und stolperten sofort über einige Ungereimtheiten: Typhoon Investigations schien nicht zu existieren, obwohl die Firma eine rudimentäre Social-Media-Präsenz hatte. Tatsächlich existierte auch Marten Aspen nicht.

Der einzige “Beweis” für seine Existenz war ein Foto von ihm. Aber dieses Porträt hatte seine eigene Geschichte: Es war nämlich eines von unendlich vielen KI-generierten, gefälschten Porträts und stammte von der Website This Person Does Not Exist (Diese Person existiert nicht).

This Person Does Not Exist wurde vom amerikanischen Softwareentwickler Phillip Wang erstellt. Die zugrundeliegende KI-Software, die die gefälschten Bilder generiert hatte (auch StyleGAN4 genannt), war vom Grafikkartenhersteller Nvidia als Vorführung der Nutzung von Grafikkarten für KI-Berechnungen entwickelt worden. Nvidia hatte nie die Absicht, mit dieser Software gefälschte Porträts zu erstellen, und vermutlich wäre die Demo-Version unter dem Radar geblieben, hätte es die Website von Wang nicht gegeben.

Wang präsentierte die Bilder als Sammlung, und der Titel suggeriert, dass es sich bei den Bildern um Porträts handelt. So legte Wang uns nahe, dass diese Bilder Fotos von Personen sind, die möglicherweise existieren, obwohl sie es nicht tun. Anders ausgedrückt: Sie sind kein Beweis für die Existenz der abgebildeten Personen und bei näherer Betrachtung ist es ziemlich einfach zu erkennen, dass es sich um Fälschungen handelt.

NBC News kommentierte den Fall Marten Aspen wie folgt:

“Zum einen waren Aspens Ohren asymmetrisch. Aber vor allem sein linkes Auge verriet, dass er nicht wirklich existierte. Aspens linke Iris ragt heraus und scheint eine zweite Pupille zu bilden – ein geläufiger Fehler bei computergenerierten Gesichtern.”

Es gibt tatsächlich viele Fehler, die diesem StyleGAN-Algorithmus entstammen. Der Künstler Kyle McDonald (der visuelle Modelle mit Hilfe von Code erstellt) war der erste, der diese Fehler in Bezug auf menschliche Gesichter katalogisierte. McDonald schrieb einen Beitrag auf dem Online-Medien-Portal Medium, der die wichtigsten Komponenten dieses Experiments analysierte. Dazu gehörte alles von “zeichnerischer Umsetzung” bis hin zu “seltsamen Zähnen”.

Doch mit mehr Trainingsbeispielen und unter Anleitung der Entwickler kann StyleGAN seine Aufgabe immer besser erfüllen. Und mit jedem Jahr, das vergeht, können wir besser verstehen, wie diese KI ihre Tricks zustande bringt.

Sehen Sie sich zum Beispiel folgende Abbildung an, die der wissenschaftlichen Studie zur Präsentation von StyleGAN im Jahr 2019 entnommen ist. Die KI-Forscher nahmen Informationen aus einem Bild einer Person (links, “Source A”) und kombinierten sie mit einigen Schlüsselmerkmalen (z. B. Brillenträger, Geschlecht, Alter, Kopfposition usw.) eines Bildes einer anderen Person (oben, “Source B”).5 Die Ergebnisse sind jeweils die Bilder in den horizontalen Zeilen neben “Source A”. Vergessen Sie dabei nicht, dass keine dieser Personen tatsächlich existiert.

StyleGAN Research

Diese Abbildung stammt aus dem Forschungspapier Karras, Laine, & Aila (2019) and depicts portraits from people who don't exist.

Aber selbst wenn man uns sagt, dass etwas real ist, und uns anschliessend Beweise präsentiert werden, die das Gegenteil nahelegen, messen wir diesen Beweisen oft keine Bedeutung bei. Das funktioniert auch andersherum – wenn wir nach Fehlern suchen, finden wir eher welche, als wenn wir nicht gezielt danach suchen.

Gefälschte Porträts “funktionieren”, weil unser Gehirn genau darauf eingestellt ist, menschliche Gesichter zu erkennen. Während man glauben könnte, dass wir deshalb gut darin sind, zu erkennen, wenn etwas “nicht stimmt”, ist tatsächlich das Gegenteil der Fall. Menschen neigen stattdessen dazu, überall Gesichter zu sehen, selbst wenn sie nicht existieren. Dieses Phänomen, nennt man Pareidolie.

Wie sich herausstellt, ist unsere Fähigkeit, Muster abzugleichen, tatsächlich so gepolt, dass wir Fehler ignorieren, anstatt sie zu identifizieren. Wenn uns also das Foto eines Schweizer Sicherheitsexperten vorgelegt wird, neigen wir dazu, das Bild zu akzeptieren, weil es dem Porträt eines weissen Mannes mittleren Alters ähnelt, auch wenn der Mann bei näherer Betrachtung sonderbar geformte Ohren und mehrere Pupillen hat und ein Hemd mit einem Kragen trägt, der nicht echt aussieht.

Die Illusion muss nicht perfekt sein, sie muss nur im richtigen Kontext gut genug sein.

Selbstdarstellung und die darstellenden Künste

1956 schrieb der Soziologe Erving Goffman ein Buch mit dem Titel Presentation of Self in Everyday Life (Selbstdarstellung im Alltag). Goffman behauptete, dass Menschen sich in Interaktionen mit anderen Menschen wie bei einer Bühnenaufführung verhalten. Er war allerdings nicht der Meinung, dass diese Interaktionen unecht seien, sondern dass wir eben in verschiedenen Situationen unseres Lebens eine Vielzahl von Rollen spielen – wir benutzen verschiedene Sprachen, tragen verschiedene “Kostüme” und präsentieren uns verschiedenen Menschen gegenüber unterschiedlich, je nach Situation.

Goffman starb 1982, fast ein Jahrzehnt bevor das Internet zu einem weltweiten Phänomen wurde und zwei Jahrzehnte vor dem Start der äusserst populären Social-Media-Seite Facebook. Nichtsdestotrotz haben seine Ideen Eingang in die Arbeit von Forschern gefunden, die sich mit der Internetkultur befassen, insbesondere bei solchen, die untersuchen, wie wir uns online präsentieren. Vom sozialen Gesichtspunkt aus verstehen wir das Internet als einen Ort, an dem Identitäten veränderlich sind. Und wie wir gesehen haben, sind unsere Gehirne genau darauf gepolt, fast jedes Bild als “Beweis” zu werten. Manchmal werden wir auch gar nicht “ausgetrickst”, sondern geniessen die “Vorstellung” als willige Teilnehmer.

Selbstdarstellung zum Spass – und für Geld

Janky ist ein Cartoon-Kater mit animierten Freunden, der fast eine Million Instagram-Follower hat. Er postet oft Inhalte, die von hochwertigen Marken wie Prada oder Gucci gesponsert werden. Janky ist eindeutig ein Fake – er hat keinerlei Verbindung zu einer existierenden Fantasiewelt (wie z. B. die Avengers zum Marvel-Universum) – aber dieses CGI-Wesen hat eine Stimme, Follower und eine Fangemeinde.

Janky ist auch keine KI: Er ist eine Figur, kreiert vom Marketing-Team einer Website, die Vinyl-Sammelspielzeug verkauft. Diese Technik wird den Fans der Band The Gorillaz aus den späten 1990er Jahren bekannt vorkommen.

Die 1998 gegründete Supergroup, deren Frontmann der Blur-Sänger Damon Albarn und der Künstler Jamie Hewlett sind, besteht aus echten Musikern, obwohl The Gorillaz als vier animierte Zeichentrickfiguren dargestellt wird. Ursprünglich wurde sie als Reaktion auf die inhaltliche “Leere” von MTV und die Popularität von fabrizierten Boybands gegründet.

All diese Themen (Zeichentrickkatzen, Boybands, MTV) bieten ansprechende synthetische Welten, die von Medien- und Werbefirmen mit riesigen Budgets geschaffen wurden. Sie sind nicht real (oder haben zumindest keine reale Bedeutung), und doch sprechen sie Millionen von Menschen an und generieren Milliarden von Franken an Einnahmen.

Da KI immer effizienter darin wird, überzeugende visuelle Beweise für Menschen und Orte zu generieren, die nicht existieren, können wir mit einer Zunahme künstlicher Identitäten rechnen – und mit der Anzahl von Menschen, die sie akzeptieren. Wir können auch mit mehr Konflikten rechnen, da die Grenzen zwischen Wahrheit und Realität immer weiter verschwimmen. So ist zum Beispiel die Art und Weise, wie Menschen sich online präsentieren, bereits jetzt ein heiss umstrittenes Thema.

Als Anfang 2019 jemand auf Instagram bemerkte, dass viele Fotos der Reisebloggerin Tupi Saravia sonderbarerweise die gleiche Wolkenformation zeigten, löste das eine Debatte unter Social-Media-Influencern aus.6 Letztendlich musste Saravia zugeben, dass sie das “KI-gesteuerte” Fotobearbeitungstool Quickshot verwendet, um ihre Bilder ansprechender aussehen zu lassen.

Saravias Kritiker behaupteten, ihr Einsatz von KI trage zu einer “Kultur der Fälschung” bei. Sie argumentierte hingegen, es handele sich lediglich um ein Tool zum Geschichtenerzählen; nicht besser oder schlechter als CGI in Filmen, das Make-up von Nachrichtensprechern oder die Art und Weise, wie wir versuchen, in den sozialen Medien nur unsere beste Seite zu präsentieren.

Wie dem auch sei: Es wird immer deutlicher, dass KI gekommen ist, um zu bleiben (vor allem, wenn es um digitale Bildgestaltung geht). Und sie hat einen grossen Einfluss darauf, wie wir die Welt um uns herum sehen und wie wir uns selbst in dieser Welt präsentieren. Man kann sie natürlich destruktiv nutzen, z. B. um politischen Feinden zu schaden, Verschwörungstheorien zu unterstützen oder gefälschte Skandale zu produzieren. Aber man kann damit auch informieren, unterhalten und Menschen Freude bereiten.

In all diesen Fällen funktioniert KI am besten als kreativer Partner, der dem Menschen passende Vorschläge unterbreitet, wobei letzterer dann eine endgültige Entscheidung trifft. KI arbeitet nicht allein – sondern in einer Partnerschaft, und folgt den Anweisungen der Person, die sie bedient. Letztendlich tut KI in Bezug auf die Kunst das, was grosse Kunst schon immer getan hat – sie erweitert unser Potenzial und am Ende stehen wir mit wichtigeren und interessanteren Fragen da, als zu Beginn.

  1. Ein normaler Klassifizierungsalgorithmus trainiert ein KI-Modell zu einem hervorragenden Erkennungsprogramm, welches in de Lage ist zu erkennen, ob ein Bild eine Katze oder einen Hund enthält. DeepDream führt diesen Prozess in umgekehrter Richtung durch und erweitert ein Eingabebild so, dass es am ehesten wie ein Hund aussieht (zumindest für das Modell). 

  2. Mit automatischer Kennzeichnung bezeichnet man Computeralgorithmen, die Bilder selbstständig eti­ket­tie­ren können. Ihr Smartphone oder Facebook nutzen diese Technik, um die Bilder Ihrer Familienmitglieder mit Namen zu versehen. 

  3. Ein Konversationsagent kann geschriebenen oder gesprochenen Text analysieren und ist auch in der Lage, automatische Antworten in menschlicher Sprache zu geben. 

  4. Weitere Informationen über StyleGAN finden Sie entweder in diesem Wikipedia-Artikel oder direkt in der Original-Forschungsarbeit

  5. Weitere Einzelheiten dazu finden Sie in diesem YouTube-Video. Dort können Sie sich auch ansehen, wie dieser Prozess abläuft. 

  6. Einige der Fotos mit gleicher Wolkenformation, die Saravia gepostet hat, finden Sie in diesem Tweet

Nächster

Maschinelles Lernen