L'IA et les arts visuels

Andrew Sempere @ EPFL Extension School · 15 minutes

Quand l’IA nous oblige à questionner ce que l’on voit.

La pratique artistique a toujours consisté en une adroite utilisation des effets d’illusion. Les dessins et les peintures, par exemple, créent une illusion d’optique - on peut ainsi admirer la capacité de l’artiste à créer des scènes ou des personnages convaincants au travers de la théorie des couleurs, de la perspective forcée, de l’effet de rapprochement (le raccourci) et des jeux d’ombres et de nuances. Ces techniques permettent ainsi de créer une image trompe-l’œil.

Un artiste humain talentueux peut se munir d’une feuille de papier et d’un fusain et, grâce à ces simples techniques, donner une impression de profondeur, créer un monde imaginaire. Cet ensemble unique de compétences a largement influencé la façon dont l’art est évalué en Europe, et ce depuis des siècles. Ainsi, plus l’illusion est bonne, plus l’artiste est qualifié de doué.

Ferdinand Hodler

Cette peinture s'appelle "Die Strasse nach Evordes" (lire "La route d’Evordes" en français) et a été réalisée par Ferdinand Hodler (image empruntée ici). De simples couleurs sur une toile et l'artiste réussit à créer une scène captivante, avec de la profondeur, de la chaleur. Le chant des oiseaux et la sensation du vent d'été ne sont pas bien loin.

Mais alors, que faire si la technologie peut créer une illusion convaincante à elle seule ? Les œuvres artistiques générées par des ordinateurs sont-elles plus ou moins vraies que celles créées par un humain ? Si l’IA peut créer une peinture qui ressemble à s’y méprendre à une pièce de Léonard de Vinci, cette oeuvre a-t-elle autant de valeur qu’un original ?

C’est un sujet qui a déjà fait l’objet de débats. La généralisation et diffusion de la photographie dans les années 1930 et la soudaine profusion des magazines très graphiques ont créé un clivage dans le monde de l’art. Elles ont changé de façon irrévocable ce que signifiaient « créer des images » et « être un artiste ».

Walter Benjamin a mis ce clivage en évidence dans son essai historique « L’Œuvre d’art à l’époque de sa reproductibilité technique » en 1936. Il y décrit à la fois les problèmes engendrés et les possibilités offertes par la « reproductibilité technique » dans le monde de l’art. En particulier, Benjamin a cherché à établir la valeur d’une œuvre originale tout en reconnaissant qu’une reproductibilité généralisée rendait l’art plus accessible.

Le dilemme de la Joconde

Prenons pour exemple la fameuse peinture de Léonard de Vinci « La Joconde ». Pouvoir la contempler par une simple recherche en ligne rend cette œuvre d’art encore plus puissante. Toutefois, en conséquence, l’image originale elle-même a perdu de son impact. C’est l’aura de l’œuvre originale qui incite les gens à faire la queue pendant des heures pour l’apercevoir en vrai, bien que tous aient déjà vu cette image des milliers de fois - sur des posters, des timbres, des carnets et des vêtements. Nous l’avons d’ailleurs tous tellement vue qu’elle est désormais un cliché.

Dans ce cas, la technologie a changé la signification de la peinture originale. Mais le débat n’est pas de savoir si elle l’a plus ou moins revalorisée. Au contraire, cela a suscité des questions bien plus complexes et intéressantes. Où réside précisément la valeur de cette image1 ? Qui en est l’auteur ? Qui est propriétaire de cette illusion et que cela signifie-t-il ? Et cette valeur peut-elle être transférée d’un objet à un autre ?

Mais désormais - à l’heure du tout numérique - certaines œuvres d’art n’ont même plus de forme physique. Il se peut qu’il n’y ait même plus une version «unique et originale » de l’œuvre; la pièce originale n’est peut être qu’une version parmi tant d’autres.

Mais alors que cela signifie-t-il pour l’art et sa valeur ?

Les androïdes rêvent-ils ?

Début 2015, Google a publié Deep Dream, avec l’attrayante suggestion que ce logiciel nous permettait de de voir ce qui se trouvait dans « l’esprit » d’une IA pendant qu’elle « rêvait ». Aucun doute, cela est très divertissant : des couleurs psychédéliques qui tourbillonnent et qui se transforment mystérieusement en têtes de chiens. Mais à en croire ce logiciel, il semble que l’IA pense en définitive que tout est un chien.

Deep Dream

Illustration de ce qu'un système d'IA entraîné à reconaître des chiens pourrait "vouloir" voir. Une façon de visualiser ce dont il "rêve" (image empruntée ici)

En réalité, le vrai travail artistique réside dans le titre du projet. Le logiciel n’est ni rêveur ni profond au sens artistique du terme, et son obsession canine n’est qu’un concours de circonstances dans sa programmation. Deep Dream utilise une base de données constituée de milliers de photographies de chiens; ainsi, si les rêves de l’IA ne semblent composés que de chiens, ce n’est pas parce que l’IA est obsédée par le meilleur ami de l’homme, mais parce que les humains savent ce qu’est un chien - et qu’ils lui donnent suffisamment d’importance pour en avoir collectionné des photos par milliers.

Qui plus est, si les images ressemblent à des chiens, elles n’en sont pas réellement. Elles apparaissent aux yeux humains comme tels - en réalité, elles ne sont qu’une collection de pixels qui façonnent vaguement l’objet que nous, humains, nommons chien.

Les images du logiciel sont issues de l’exécution inversée d’un algorithme de classification2. Bien que cela soit une provocation amusante, il faut bien comprendre que le logiciel n’a pas la même perception de ces images que nous : si celles-ci nous paraissent étranges, lui les crée sans intention particulière, tout comme il pourrait taguer3 des chats sur une photo ou vous donner l’heure.

On ne peut pas vraiment dire que l’IA rêve (ou hallucine) étant donné qu’elle ne maîtrise pas le concept de chose « normale ». On ne peut même pas attribuer à l’IA un amour pour les chiens - elle ne fait que refléter les données avec lesquelles elle a été entraînée. Le logiciel ne réfléchit pas, tout comme un amplificateur ne joue pas de guitare électrique. Elle ne fait que produire un résultat en accord avec les instructions qui lui ont été fournies par les opérateurs humains.

Et ce résultat semble psychédélique à nos yeux pour une raison tout aussi simple : nous avons des expériences psychédéliques humaines avec lesquelles tracer des parallèles. Le « sens » de ces images repose sur notre propre « système de classification » interne et sur nos expériences de vie.

Cependant, cette observation ne modifie pas la valeur des images que Deep Dream crée - cela ne fait qu’en reporter la responsabilité. L’IA produit une image, mais c’est à nous qu’incombent les tâches d’édition, de recadrage, de sélection, d’amplification et d’appréciation, en miroir de notre propre expérience. L’IA produit de la matière brute; mais l’art et les rêves nous appartiennent.

Ecris ce que tu sais

Un des dictons courants chez les auteurs de fiction est « Écris ce que tu sais ». Dans le cas de l’IA, c’est un absolu - une IA ne peut produire que du matériel dont elle est familière, du moins pour le moment. Toutes les IAs sont construites sur des données d’entraînement [^Note de bas de page 8] et leur connaissance du monde est limitée à l’étendue de ces données.

Dans le cas de Deep Dream, les résultats rappellent aux gens des images « trippantes » expérimentées lors d’hallucinations sous l’influence de substances psycho-actives. Si les androïdes rêvent de moutons électriques, c’est parce qu’ils ont été entraînés avec une base de données relative aux moutons - mais rêvent-ils vraiment pour autant ? Y a-t-il des parallèles entre les procédés mentaux humains et la façon dont cet algorithme fonctionne ?

Dans une certaine mesure, oui. [^Note de bas de page 9] Mais la recherche sur l’IA a connu une transformation radicale au cours de ces dernières décennies, avec de profondes implications sur la façon dont cette technologie s’intègre à notre vie quotidienne.

Aux prémices de la recherche sur l’IA et la cybernétique dans les années 1940, l’emphase était mise sur la reproduction de l’intelligence humaine, avec la promesse que ce futur était à portée de main. Néanmoins, la recherche plus récente dans ce domaine s’est concentrée sur l’intégration de l’IA et de logiciels semblables à l’IA d’une façon qui nous semble naturelle. Aucune revendication n’est faite pour dire que l’IA est réellement en vie ou qu’elle réplique des procédés biologiques.

Ce changement peut être observé chez des chercheurs contemporains de l’IA tels que Bruce Blumberg, un concepteur «d’expérience utilisateur» qui a travaillé au MIT et chez Apple. Il a passé de nombreuses années de sa carrière à construire des agents conversationnels4 répliquant la communication non-verbale entre les humains et leurs animaux de compagnie, en basant ses observations sur l’intérêt de son fils pour les chiens de concours. Le but ici n’était pas de fabriquer une IA aussi intelligente qu’un humain, mais de créer une IA qui ne soit pas complètement stupide et qui soit aussi attachante qu’un animal de compagnie.

Bien que la notion d’IA générale (ou forte) conversationnelle (voir notre article précédent IA - Deux lettres aux multiples sens) occupe toujours les esprits des auteurs et fans de science fiction, ce qui s’en rapproche le plus actuellement est Siri - l’assistant personnel qui vit dans les centaines de millions d’iPhones à travers le monde. Siri, et d’autres appareils tels que Alexa d’Amazon, sont clairement limités dans leur compréhension du monde, mais ils sont suffisamment doués pour appeler vos amis rapidement ou jouer une chanson pour vous.

L’imitation restreinte aux limites d’un domaine est à la fois plus intéressante et plus profitable qu’une IA générale telle que décrite en science fiction. Après tout, l’illusion est spécifique au contexte: donnez à un téléphone ou à un ordinateur l’accès à un carnet d’adresses et à un calendrier, et voilà une interface relativement simple devenue très utile et « intelligente ».

Un cadrage soigné est aussi l’une des composantes clés du fonctionnement de l’art. Par exemple, l’illusion d’optique de profondeur sur une peinture n’existe que parce que l’image possède une bordure et qu’elle est observée à une certaine distance. Si l’on s’éloigne ou que l’on se rapproche trop de l’image, cette illusion disparaît. Et si vous regardiez une capture d’écran de votre film préféré à la loupe, le sens de l’histoire disparaîtrait et ne laisserait que des pixels.

Mais la promesse de la fabrication d’images techniques - en particulier lorsqu’on parle de photographie haute définition - a toujours été la précision et, par corollaire, le récit du vrai. Les images sont des témoignages et mises en lumière dans les limites d’un cadre, elles peuvent nous faire croire à des situations ou des histoires, réelles ou non.

Des faux sur toute la ligne

Durant les élections présidentielles américaines de 2020, des acteurs politiques ont affirmé, en ligne, être en possession d’un rapport explosif contenant des informations scandaleuses à propos du candidat à la présidence Joe Biden et de son fils, Hunter.

Ce rapport « divulgué » avait été écrit par un expert suisse de la sécurité nommé Marten Aspen, à la tête d’une société privée intitulée Typhoon Investigations. Une fois l’information parvenue aux principaux organes de presse, les journalistes se mirent à enquêter et se retrouvèrent immédiatement confrontés à un obstacle. Bien qu’elle soit très présente sur les réseaux sociaux, la société Typhoon Investigations semblait ne pas exister - en fait, Marten Aspen n’existait pas non plus.

La seule preuve de l’existence d’Aspen était une photographie. Mais ce portrait allait révéler sa propre histoire: il s’agissait en réalité de l’un des nombreux faux portraits réalisés par IA, trouvés sur le site internet This Person Does Not Exist (comprenez, «cette personne n’existe pas»).

Le site This Person Does Not Exist a été créé par l’ingénieur américain Phillip Wang. Le logiciel d’IA sous-jacent responsable de générer ces fausses images (aussi appelé StyleGAN5) a été développé par le fabricant de cartes graphiques Nvidia pour démontrer l’étendue de leur capacité à exécuter des calculs d’IA sur leurs cartes graphiques. Nvidia n’a jamais eu l’intention d’utiliser son logiciel comme un outil de création de faux portraits, et cette démonstration serait probablement restée dans l’ombre s’il n’y avait pas eu le site de Wang pour la révéler.

En présentant les images comme une collection et en fournissant un titre qui implique que ces images sont des portraits, Wang nous interpelle et nous oblige à considérer que ces images sont des photographies de personnes qui pourraient exister, quand en réalité elles n’existent pas. Plus simplement, ces photographies ne sont pas la preuve d’une existence - et en les examinant bien, il est relativement aisé de dire qu’elles sont fausses.

NBC News a écrit au sujet du cas Marten Aspen:

« En premier lieu, les oreilles d’Aspen étaient asymétriques, mais ce qui a vraiment trahi le fait qu’il n’existait pas, c’était son œil gauche. L’iris gauche d’Aspen était en relief et semblait former une deuxième pupille, ce qui est une erreur fréquente avec les visages générés par ordinateur. » - Cet article inclue également une photo de Martin Aspen.

En réalité, de nombreuses erreurs sont commises par l’algorithme StyleGAN. L’artiste Kyle McDonald - qui crée des modèles visuels grâce à du code - a été le premier à cataloguer celles concernant les visages humains. McDonald a écrit un article sur le portail de publication en ligne Medium, dans lequel il analyse les éléments clés de cette expérience. Les erreurs identifiées peuvent aller de « rendu pictural » à « dents étranges ».

Toutefois, avec plus d’exemples d’entraînement et les instructions des développeurs, le StyleGAN peut s’améliorer dans sa tâche. Et au fil du temps, nous serons capables d’améliorer notre compréhension de cette IA et de la façon dont elle réalise ses tours.

Prenez l’illustration suivante qui est issue de l’article de recherche présentant StyleGAN de 2019, par exemple. Les chercheurs en IA ont pris les informations d’une image de personne (telle que montrée à gauche sous l’intitulé Source A), et l’ont combinée avec des caractéristiques clés (par exemple: avoir des lunettes, le genre, l’âge, la position de la tête, …) d’une autre image de personne (comme présentée sur la ligne du haut nommée Source B)6. Les résultats sont les images de la ligne horizontale à côté de la Source A. N’oubliez pas qu’en réalité aucune de ces personnes n’existe.

StyleGAN Research

Cette illustration est prise depuis l'article de recherche publié par Karras, Laine, & Aila (2019) et présente des portraits plausibles d'humains qui pourtant n'existent pas.

Néanmoins, si on nous affirme que quelque chose est vrai - et qu’on nous montre ensuite une preuve suggérant le contraire - nous allons généralement ignorer la preuve. Cela fonctionne aussi en sens opposé: si l’on cherche des erreurs, il est plus probable d’en trouver que l’inverse.

Les faux portraits « fonctionnent » parce que notre cerveau est parfaitement conçu pour identifier les visages humains. Vous pensez peut-être que cela nous permet de détecter plus rapidement les anomalies, mais c’est en réalité l’inverse. Les humains tendent à voir des visages partout, même lorsqu’ils n’existent pas, ce qui est un phénomène connu sous le nom de paréidolie.

Ainsi, notre capacité à reconnaître des formes est en fait configurée pour ignorer les erreurs plutôt que les détecter. C’est pourquoi, lorsqu’on nous présente une preuve photographique de l’existence d’un expert suisse de la sécurité, on tend à prendre cette image pour argent comptant car elle ressemble au portrait d’un homme blanc d’âge moyen - même si en y regardant de plus près, l’homme a des oreilles étranges, plusieurs pupilles dans un seul oeil et porte un t-shirt dont le col ne semble pas réel.

L’illusion n’a pas besoin d’être parfaite. Il lui faut juste être dans la bonne lumière.

La mise en scène de la vie quotidienne et les arts du spectacle

En 1956, un sociologue nommé Erving Goffman a écrit un livre intitulé La Mise en scène de la vie quotidienne. Goffman y affirme que les êtres humains traitent les interactions en face-à-face comme une performance scénique. Par là, il ne suggère pas que ces interactions sont fausses, mais que l’on joue une variété de rôles dans divers domaines de la vie; nous parlons différentes langues, nous portons d’autres costumes et nous nous présentons différemment à diverses personnes, le tout en fonction de la situation.

Goffman est décédé en 1982, près d’une décennie avant qu’Internet ne soit accessible à tous, et vingt ans avant le lancement de ce réseau social si populaire qu’est devenu Facebook. Quoi qu’il en soit, ses idées ont trouvé écho dans le travail des chercheurs qui étudient la culture sur Internet, en particulier chez ceux qui se penchent sur la façon dont on se présente en ligne. D’un point de vue social, nous comprenons qu’Internet est un endroit où l’identité est fluide et, comme mentionné plus tôt, notre cerveau est préparé d’une façon unique à interpréter quasi n’importe quelle image comme une « preuve ». Il se peut même, dans certains cas, que nous ne soyons pas du tout « trompés », mais plutôt que nous nous prenions au jeu bien volontiers !

L’auto-représentation pour le plaisir - et le profit

Janky est un chat de dessins animés qui a des amis animés et qui se targue d’avoir près d’un million d’abonnés sur Instagram [^Note de bas de page 21]. Il poste régulièrement des contenus sponsorisés, mettant en avant des marques de luxe telles que Prada et Gucci. Janky est clairement un « faux » - il n’a aucune connexion avec un monde narratif existant (comme ce serait le cas avec Les Avengers dans l’univers de Marvel, par exemple), mais ce personnage a une voix, un public et un groupe de fans.

Janky n’est pas non plus une intelligence artificielle; il est un personnage qui prend vie dans les mains d’une équipe marketing travaillant pour un site internet qui vend des jouets en vinyl à collectionner. Cette technique peut sembler familière aux fans du groupe musical The Gorillaz, à la fin des années 1990.

Formé en 1998 et mené par le chanteur du groupe Blur Damon Albarn et l’artiste Jamie Hewlett, The Gorillaz est un groupe composé de réels musiciens, bien que le groupe se représente avec quatre personnages en dessins animés. A l’origine, ils ont créé cette représentation graphique pour émettre une critique à l’encontre de MTV et de la popularité des « boys bands » fabriqués de toute pièce.

Toutes ces choses (les chats en dessins animés, les boys bands, MTV) sont des mondes artificiels attractifs créés par les médias et les industries de divertissement à gros budget. Elles n’ont aucune existence significative, et pourtant elles attirent des millions de gens et génèrent des milliards de dollars de chiffre d’affaires.

Comme l’IA devient de plus en plus efficace pour générer des images convaincantes de personnes et d’endroits qui n’existent pas, on peut s’attendre à une augmentation de ces identités artificielles - et du nombre de personnes qui les adoptent. On peut aussi anticiper plus de conflits, puisque les frontières entre la vérité et la réalité deviennent de plus en plus floues. Pour preuve, la façon dont les gens gèrent leur identité en ligne est devenue un sujet brûlant.

Début 2019, un débat a éclaté parmi les influenceurs des médias sociaux lorsqu’une personne a remarqué sur Instagram que plusieurs photos de la blogueuse de voyage Tupi Saravia étaient composées du même ciel, avec la même couverture nuageuse 7. Au final, Saravia a été forcée d’admettre qu’elle utilisait un outil d’édition photo alimenté par IA pour rendre ses clichés plus attrayants.

Les critiques à l’encontre de Saravia ont affirmé que son utilisation de l’IA a contribué à la « culture de l’imposture ». En réponse, elle s’est défendue en expliquant que ce n’était qu’un outil de narration; ni meilleur ni moins bon que ceux des images de synthèses dans les films, que les maquillages des présentateurs de journaux télévisés, ou que la façon dont on essaie de ne montrer que le meilleur de soi-même sur les réseaux sociaux.

Quoi qu’il en soit, il est de plus en plus évident que l’IA va demeurer - en particulier pour ce qui est de la création d’images crédibles - et qu’elle aura un impact gigantesque sur notre façon d’agir et de percevoir le monde qui nous entoure. Bien qu’elle puisse être utilisée de façon négative dans diverses situations, comme les dommages faits à des adversaires politiques, le soutien des théories conspirationnistes ou la fabrication de faux scandales, l’IA peut aussi être employée pour nous enrichir, nous divertir et créer du plaisir.

Dans tous les cas, l’IA fonctionne au mieux lorsqu’elle est employée comme partenaire créatif pour émettre des suggestions pertinentes aux humains qui peuvent ensuite prendre une décision finale. L’IA ne travaille pas seule, il s’agit d’un partenariat basé sur la volonté de la personne qui la manie. En définitive, en termes artistiques, l’IA fait ce que le meilleur de l’art a toujours fait: étendre notre potentiel et nous laisser avec plus de questions que de réponses.

  1. Avant l’invention de la photographie, la valeur d’une image était seulement perceptible via sa forme physique. Il fallait “la voir” en vrai. Toutefois, les photos permettent aujourd’hui à de nombreuses personnes de témoigner d’une pièce d’art peu importe où ils sont- ce qui veut dire qu’il aurait alors fallu être là où la photo originale se trouve pour vraiment vivre l’expérience authentique. Pour plus sur ce sujet, voir cet article (en anglais)

  2. Un algorithme de classification “classique” permet d’entraîner un modèle d’IA à détecter des motifs dans une image. Par exemple, il peut ainsi détecter si une image contient un chien ou un chat. Deepdream execute ce procédé à l’envers afin de générer une image qui représente le plus possible ce qui fait prédire (“penser”) le modèle à un chien. 

  3. On parle de “taguer” une photo lorsqu’un algorithme attribue un “tag” (une étiquette, une catégorie) à une photo. C’est ce que nos téléphones font, ou ce que Facebook fait, lorsque toutes nos photos sont automatiquement triées selon certaines catégories. 

  4. Un agent conversationnel est un système qui permet d’analyser du langage écrit ou parlé et qui peut y répondre, à travers du langage écrit (souvent) ou parlé (plus compliqué). 

  5. Plus d’informations sur StyleGan peuvent être trouvées dans l’article Wikipedia dédié ou encore directement via la publication scientifique (en anglais)

  6. Pour plus de détails à ce sujet et pour voir ce procédé en action, regardez cette vidéo Youtube

  7. Vous pouvez observer une petite collection des photos partagées par Saravia avec le même ciel et la même couverture nuageuse dans ce tweet

Prochain

Apprentissage automatique