Des données si différentes

Christian Luebbe @ EPFL Extension School · 18 minutes

Comment l'IA peut-elle à manipuler une si grande variété de données ?

Nous utilisons nos cinq sens pour faire des observations et recueillir des informations sur nous-mêmes et sur le monde qui nous entoure. Nous utilisons également certains capteurs ou autres appareils pour obtenir des informations. Ces processus de collecte d’informations nous aident au quotidien à acquérir des connaissances et de nouvelles compétences. Nous sommes en mesure d’évaluer les situations auxquelles nous faisons face et d’utiliser notre logique et notre raisonnement pour prendre des décisions. Dois-je tourner à gauche ou à droite ? Puis-je sauter par-dessus ce ruisseau ? Quel est le meilleur endroit pour cacher les cadeaux d’anniversaire des enfants ?

Chaque fois que nous enregistrons des informations, nous créons des données. Dans l’article Les éléments au coeur de l’IA, nous avons souligné l’importance des données dans le développement des systèmes d’IA. Les humains ont besoin d’informations pour apprendre et prendre des décisions. Les systèmes d’IA ont besoin de données. Comme le disait l’américain Michael Dell, fondateur des technologies Dell, « L’intelligence artificielle est votre fusée spatiale et les données sont le carburant. »

Mais de quelles données parle-t-on exactement ? Y a-t-il différents types de données ?

Par exemple, le site Web que vous consultez actuellement est constitué de plusieurs types de données. Il y a d’abord le texte que vous lisez et qui vous transmet des informations à travers le langage. Les images aussi vous présentent des informations visuelles sous forme de couleurs et de formes. Mais derrière ce site se cache également le code HTML qui indique à votre appareil comment l’afficher et ce sont là encore de nouvelles données. Enfin, il est probable que votre fournisseur de données mesure actuellement la taille de ce site et peut-être même vous facture en conséquence.

Regardez l’image ci-dessous. Quel type de données pouvons-nous en tirer ? Nous pouvons voir la couleur, la forme et la texture de plusieurs éléments. Nous pouvons observer et mesurer d’autres aspects de ces éléments comme la taille, le poids et les matériaux à partir desquels ils sont fabriqués. Nous pourrions répertorier tous ces éléments dans de nombreuses langues différentes. Comme vous pouvez le voir, cette image permet de recueillir un grand nombre d’informations et nous fournit de nombreuses données.

Les données sont disponibles dans de nombreux formats différents : texte, image, audio, etc. Chaque format a sa propre façon de transmettre des informations, nous choisissons donc nos formats en fonction de la tâche à effectuer. Si nous voulons identifier les différentes montagnes suisses sur nos photos de vacances, l’utilisation de données d’images est un choix plus judicieux que des descriptions verbales des montagnes. De même, reconnaître un compositeur classique peut être plus facile à partir d’un enregistrement audio qu’à partir d’une partition.

Ce que nous nous apprêtons à découvrir

Nous examinerons ici après les différents types de données qui existent et nous nous intéresserons aux types d’informations que les humains et l’IA pourraient tirer de ces données.

Nous examinerons également la variété et la complexité des différentes données. L’objectif est de découvrir la façon dont les humains utilisent ces formes de données, ce qui nous aidera à comprendre ce que nous pouvons attendre des systèmes d’IA. Que voulons-nous que l’IA apprenne de ces types de données ?

Nous vous présenterons également différentes applications de l’IA pour vous montrer ce qui a déjà été réalisé et ce que le futur nous réserve. Cela soulignera encore davantage pourquoi les données sont devenues une marchandise si précieuse de nos jours.

Etant donné que le nombre d’éléments que nous souhaitons présenter est assez conséquent, nous avons séparé ce sujet en deux articles. Dans ce premier article, nous discuterons des données les plus fréquentes :

    1. Les données tabulaires
    2. Le texte
    3. Les données audio
    4. Les données visuelles - images et vidéos

Dans l’article suivant, nous aborderons des données un peu moins usuelles :

    5. Les séries temporelles / chronologiques
    6. Les réseaux
    7. Les données géospatiales et de localisation
    8. Les émotions
    9. L’Internet des objets

Vous êtes prêt ? C’est parti !

1. Données tabulaires

Qu’est-ce qui vous vient à l’esprit lorsque vous pensez aux données ? La plupart des gens pensent aux feuilles de calcul ou à des listes de nombres ou de caractéristiques. En gros, ils pensent à des tableaux (comme Excel par exemple). À l’école, plusieurs tableaux vous auraient été familiers au quotidien. Votre emploi du temps, vos tables de multiplication ou encore vos listes de vocabulaire par exemple !

Identifiant Âge (années) Taille (cm) Poids (kg) Couleur des cheveux Sportif Sexe
1 16 174.3 58.6 Brun Oui Féminin
2 25 166 64.3 Blond Non Masculin
3 2 88.8 11.9 Noir Non Féminin
4 61 175.8 72 Blanc Oui Féminin
5

Les feuilles et tables de calcul sont l’un des formats de données les plus courants, c’est pourquoi ils sont l’une des premières choses auxquelles nous pensons lorsque nous considérons l’idée des données. L’aspect clé des données tabulaires est qu’elles sont structurées, visuellement et conceptuellement. Pour chaque élément d’un tableau, nous enregistrons les mêmes caractéristiques ou informations, par ex. la taille, le poids, la couleur des yeux, etc. Chaque caractéristique a sa propre colonne et nous enregistrons toutes les informations pertinentes pour chaque élément individuel sur une ligne. Cette façon d’organiser les données facilite l’analyse et la compréhension. Elle facilite également leur traitement par des machines.

Regardons de plus près les horaires des trains ci-dessous. Les informations pour chaque train sont données sur une ligne et chaque ligne contient les mêmes détails : heure de départ, numéro de train, destination et voie. Les colonnes vous permettent de limiter facilement votre recherche selon différents critères, par exemple le prochain train pour Genève part à 8h08 de la voie 6, ou le prochain train sur la voie 5 va à l’aéroport de Genève.

Horaires

Un tableau des horaires de train depuis la gare principale de Lausanne (source).

Les humains enregistrent les données de cette manière depuis des milliers d’années et nous le faisons encore aujourd’hui. Horaires de train, comptes bancaires, listes de lecture, tableaux de championnat de football : ils présentent tous des données structurées sous forme de tableau.

L’aspect le plus important des données tabulaires pour l’IA est qu’il y a une structure claire et cohérente qui facilite leur traitement. C’est pour cette raison que la plupart des systèmes d’IA préfèrent transformer les autres types de données en un format tabulaire ou de type grille avant de les traiter. Les prévisions de ventes, la fidélité des clients, les recommandations de films, la détection des fraudes peuvent toutes être stockées sous forme de tableau.

2. Le texte

Une autre forme de données très courante est le texte. Les êtres humains utilisent toutes sortes de systèmes d’écriture pour enregistrer des informations, et cela depuis des milliers d’années. En Égypte antique, on écrivait sur du papyrus. Quelques millénaires plus tard, l’imprimerie est inventée durant la période médiévale. Aujourd’hui, nous enregistrons nos écrits sur des fichiers numériques comme des documents Word.

Marius Miribel

Le soldat Marius Miribel, 1914.

Mais, du papyrus au PC, le principe est le même. Tout au long de l’histoire, nous avons utilisé l’écriture pour faire enregistrer de manière détaillée chaque aspect de notre vie et de notre environnement. Le langage est un excellent moyen d’enregistrer des informations en raison de sa polyvalence et de sa richesse. Réfléchissez à toutes les façons dont vous pourriez utiliser le langage pour décrire un fait quotidien.

La complexité du langage

Contrairement aux données tabulaires, le texte est un moyen non structuré d’enregistrer des informations. Nous disposons de mots, d’expressions, de phrases et de paragraphes, mais il n’existe pas de modèle ou d’ensemble de règles qui nous indiquerait comment les informations sont codées dans la langue et où elles peuvent être trouvées dans n’importe quel texte donné. Un peu de structure est parfois fourni pour nous guider comme par exemple une page de sommaire, ou peut-être un glossaire. Les journaux nous permettent de trouver plus facilement ce que nous voulons en regroupant le texte en fonction du sujet, par ex. les actualités au recto et le sport au verso. Mais nous faisons toujours face à du texte non structuré lorsqu’il s’agit de lire chaque article.

Le langage est une construction humaine complexe. Enfants, nous apprenons à associer des combinaisons de mots parlés à des significations et des concepts. Nous apprenons également des nuances dans la façon dont nous utilisons le langage. Par exemple, lorsque nos parents nous demandent quelque chose comme « Peux-tu mettre le lait sur la table ? », nous comprenons que cela implique de placer la bouteille de lait sur la table et de ne pas verser le lait directement dessus.

Le langage peut être très précis, mais souvent, il est ambigu et laisse place à des interprétations. Nous devons parfois « lire entre les lignes ». Le langage peut être utilisé pour exprimer des opinions, des doutes, des sentiments et des émotions, et toutes ces choses conduisent inévitablement à des interprétations subjectives. L’extraction de toutes les informations d’un texte avec une précision parfaite est très difficile, même pour des humains.

Combiner l’IA avec du texte

Le texte est le moyen le plus courant de transmettre des informations. Cependant, l’étendue et la complexité des informations contenues dans le texte, le manque de structure cohérente, la dépendance au contexte et l’ambiguïté générale du sens qui lui est donné rendent très difficile l’interprétation des données textuelles par l’IA.

Les données commerciales, les diagnostics médicaux, les e-mails, les publications sur les réseaux sociaux sont tous transmis sous forme de texte. Cette prévalence du texte signifie que l’extraction de texte et le traitement du langage naturel (natural language processing ) sont des domaines de recherche importants dans l’IA contemporaine.

Ces technologies nous aident déjà à vérifier l’orthographe et la grammaire dans nos textes, et à prédire la fin de nos phrases lorsque nous les écrivons. L’IA peut également traduire automatiquement du texte dans une autre langue, une langue que nous ne parlons peut-être même pas. La fiabilité des traductions effectuées par l’IA a considérablement augmenté ces derniers temps et les erreurs sont beaucoup moins fréquentes qu’auparavant.

Les services client utilisent déjà souvent des systèmes d’IA pour traiter nos requêtes. Le traitement automatique du langage naturel (natural language processing) est alors utilisé pour identifier automatiquement les sujets évoqués, les noms et les emplacements dans nos demandes écrites et les transfèrent aux services concernés. Certaines demandes sont traitées par des assistants virtuels qui peuvent communiquer avec les utilisateurs et même répondre à leur demande sans aucune intervention humaine.

Les entreprises utilisent également l’IA pour effectuer des analyses automatiques des avis clients afin de comprendre ce que les gens pensent de leurs produits et services. Grâce aux technologies d’IA, toutes ces tâches peuvent être automatisées, à grande échelle et en temps réel.

3. Les données audio

Spectrogramme

Enregistrement sonore (spectrogramme) de quelqu'un disant : "Welcome to That's AI". On peut y visualiser le temps sur l'axe horizontal et la fréquence sonore sur l'axe vertical.

Tous les challenges rencontrés avec le texte sont encore plus accentués lorsqu’il s’agit de données audio. Avec l’audio, nous sommes toujours confrontés à toute la complexité et l’ambiguïté du langage, mais nous devons également gérer les différents accents, intonations et émotions, ainsi que les variations de volume et de vitesse de la parole. Les humains sont capables de surmonter ces problèmes en apprenant à reconnaître et à distinguer les gens par leur voix, et également à détecter les émotions dans la façon dont une personne prononce ses mots.

Mais la communication orale devient difficile lorsque nous avons une conversation dans un environnement bruyant, ou avec quelqu’un qui a un fort accent ou un dialecte différent. Cela devient encore plus difficile lorsque nous essayons de communiquer dans une deuxième langue. Pour que l’IA comprenne ce qu’on lui demande à l’oral, ou ne serait-ce que pour identifier une personne au son de sa voix, elle doit également surmonter ces défis !

Combiner l’IA et les données audio

La reconnaissance vocale automatique est un domaine dans lequel la technologie de l’IA est appliquée aux données sonores, également appelée transcription ou reconnaissance vocale . Cela vous permet d’utiliser votre téléphone en mode mains libres, mais permet également à des personnes comme les médecins par exemple de gagner du temps en dictant simplement leurs notes au lieu de les écrire. Les sous-titres générés automatiquement sur des séries ou films sont également une application typique de la reconnaissance vocale sur les vidéos et la télévision, bien qu’elle ne soit pas encore parfaite : des erreurs s’y cachent parfois…. Ce n’est pas toujours parfait, mais le rendu s’améliore jour après jour.

La reconnaissance vocale est également appliquée aux assistants numériques intelligents tels qu’Alexa et Siri. Ces assistants nous permettent de contrôler nos appareils sans aucune interaction physique et, au fil du temps, ils apprennent à mieux comprendre notre voix, à répondre à nos requêtes et à obéir à nos ordres.

L’IA peut également être utilisée dans le sens inverse en convertissant cette fois le texte en parole. C’est cette technologie qui donne une voix à vos assistants numériques lorsqu’ils répondent à vos requêtes. Elle permet également à votre navigateur Internet de lire vos articles à haute voix. Depuis 2019, il est possible de faire une traduction automatique du langage directement par voie orale, sans avoir à repasser par le texte. Il sera bientôt possible de faire en sorte que la traduction de votre discours vous ressemble, avec votre accent.

Il est important de se rappeler que les données sonores ne se limitent d’ailleurs pas à la parole. Elles comprennent également des sons tels que la musique, les bruits d’animaux, les réacteurs d’avion ou encore le tic tac des horloges.

Prenez la musique par exemple. Les êtres humains peuvent distinguer les genres musicaux quand ils écoutent de la musique. Nous pouvons faire la différence entre la musique classique et le heavy metal. On peut aussi différencier les cuivres et les instruments à vent, ou la guitare et le piano. L’IA est capable de reconnaître l’état d’esprit véhiculé par des chansons et peut ainsi automatiser la dénomination des nouveaux morceaux. C’est de cette manière que des plateformes comme Spotify filtrent et ordonnent tous leurs morceaux.

Il y a aussi d’autres choses que nous pouvons identifier et analyser simplement en les écoutant… Par exemple, un mécanicien automobile expérimenté peut diagnostiquer un problème simplement en écoutant le bruit d’un moteur, même sans aucun signe visible. En fait, l’IA apprend à faire de même en analysant les profils sonores des composants mécaniques afin de détecter les dysfonctionnements à l’intérieur d’une machine sans avoir à l’ouvrir.

4. Données visuelles - images et vidéos

La vue est notre sens le plus développé et d’ailleurs celui que nous sollicitons le plus lorsque nous nous orientons dans notre environnement.

Les cerveaux humains sont capables de traiter des informations visuelles à une vitesse incroyable. En un seul coup d’œil, nous sommes en mesure d’identifier les formes, les couleurs, les ombrages et les textures, puis de les combiner pour identifier des objets et des personnes sans hésitation. Nous sommes également en mesure d’interpréter les subtilités des expressions faciales qui peuvent révéler beaucoup d’informations sur l’état émotionnel sous-jacent d’une personne. Les données visuelles enregistrent une grande quantité et une grande variété d’informations, en une seule fois. Comme le dit le dicton, « une image vaut mille mots. »

Matterhorn

En observant plus longuement, nous sommes en mesure d’analyser le mouvement des objets et des personnes, de lire les expressions faciales ou les gestes de la main, et d’identifier les changements. Nos cerveaux peuvent combiner toutes ces informations pour créer un récit des événements qui se déroulent devant nous.

Nous pouvons également prévoir ce qui pourrait se passer ensuite et agir en conséquence. C’est quelque chose que nous faisons constamment pendant que nous conduisons par exemple. Nous prenons en compte la vitesse et la direction des véhicules qui nous entourent pour anticiper ce qu’ils pourraient faire ensuite. Par exemple, si vous pensez que la voiture à gauche est sur le point de se déplacer sur votre voie, vous ralentissez pour éviter une collision potentielle. La reconnaissance, l’analyse, l’évaluation et l’anticipation se produisent en quelques secondes dans notre cerveau.

Combiner l’IA et des données visuelles

La reconnaissance visuelle joue un rôle important dans de nombreuses technologies d’IA et elle possède un large éventail d’applications dans de nombreux secteurs. Repensons brièvement au texte et au processus de numérisation. Les données enregistrées de manière physique sont appelées « analogiques » et une grande quantité de données textuelles existe sous forme imprimée ou manuscrite. Pour que nous puissions rechercher dans ces données, elles doivent être numérisées.

Imaginez le temps qu’il faudrait aux humains pour saisir manuellement tous les textes analogiques du monde entier dans une machine. Heureusement, nous pouvons automatiser ce processus avec une technologie de l’IA appelée reconnaissance optique de caractères (ROC) ou lecture automatique, qui est beaucoup plus rapide et beaucoup moins sujette aux erreurs que la transcription humaine.

Cette technologie est notamment utilisée lorsque vous numérisez des reçus ou des factures avec une application de paiement ou lorsque vous recherchez des mots dans des documents numérisés. Elle joue également un rôle important dans les chaînes d’approvisionnement et la logistique en lisant la documentation d’expédition et de douane, en identifiant la cargaison et en suivant les marchandises. La même technologie est utilisée pour lire des textes pour les personnes aveugles ou malvoyantes.

Ces exemples sont déjà impressionnants, mais il y a mieux : la vision par ordinateur réalise des choses encore plus prodigieuses. Votre smartphone est capable de reconnaître votre visage ou votre empreinte digitale afin que vous seul puissiez y accéder. Votre bibliothèque de photos peut automatiquement regrouper toutes vos photos en fonction des personnes qu’elles contiennent.

La technologie qui rend cela possible est également capable de reconnaître les objets dans les images, puis de les étiqueter et de les classer. Les voitures autonomes utilisent d’ailleurs la même technologie pour lire les panneaux routiers, surveiller les autres véhicules et identifier les obstacles potentiels et les piétons. Les robots utilisent cette technologie pour identifier les objets et leur emplacement précis afin de pouvoir les attraper et les manipuler.

La vision par ordinateur

Les exemples d’utilisation existants et potentiels de la vision par ordinateur sont incroyablement variés. Les usines l’utilisent pour détecter automatiquement les marchandises défectueuses ou endommagées et les retirer de la ligne de production. Les organisations aussi l’utilisent : les compagnies d’assurance et les agences gouvernementales appliquent la vision par ordinateur aux données aériennes et satellites pour évaluer l’étendue des catastrophes naturelles ou identifier des activités militaires suspectes. Les entreprises de sécurité pour identifier des intrus dans des zones restreintes et des incidents dans des lieux de stockage éloignés.

La vision par ordinateur a également des applications évidentes pour la surveillance généralisée. Les agriculteurs en font également usage en équipant les drones d’une technologie de vision par ordinateur capable d’évaluer leurs différentes cultures. Par conséquent, ces agriculteurs peuvent voir quelles cultures sont prêtes pour la récolte et lesquelles ont besoin de plus d’eau, sans même avoir à sortir dans les champs. En médecine, la vision assistée par ordinateur permet de détecter la présence d’eczéma et de mélanome sur la peau, et elle peut parfois lire les radiographies avec une plus grande précision que les radiologues expérimentés.

Toutes ces utilisations se fondent sur la reconnaissance : le processus consistant à pouvoir voir les choses et les identifier. Mais nous pouvons également aller plus loin et penser à la réalité virtuelle, cette technologie qui manipule les vidéos. Vous connaissez peut-être déjà les outils de visioconférence et les applications de messagerie qui vous permettent de transformer l’arrière-plan de votre bureau en un lieu exotique, ou d’appliquer de faux cils et de fausses barbes sur votre visage.

Il est même possible de remplacer tout votre corps par un avatar. Pour ce faire, l’IA suit vos mouvements pour déterminer la position et l’orientation de votre corps avant de calculer ce qui doit être la représentation la plus réaliste des nouvelles images créées.

La réalité augmentée peut également insérer des objets artificiels dans votre environnement réel. Certains jeux de société ont déjà des fonctionnalités de réalité augmentée qui apparaissent sur le plateau pour offrir une expérience de jeu plus interactive. En médecine, les chirurgiens du cerveau utilisent la réalité augmentée pour visualiser les images du cerveau avant l’intervention chirurgicale, explorer les zones sensibles et planifier l’opération de manière à ce qu’elle soit la moins invasive possible. Une fois dans la salle d’opération, ils peuvent superposer le patient avec ces informations supplémentaires pour guider leurs instruments et augmenter leur précision.

Le suivi automatique des mouvements a également des utilisations au-delà de l’augmentation visuelle. Pour les voitures autonomes, il est essentiel de pouvoir distinguer un piéton qui est en sécurité sur le trottoir d’un piéton qui a l’intention de s’engager sur la route. Dans ce cas, l’IA observe la vitesse et la direction du mouvement pour prédire s’il existe une possibilité de collision.

Le suivi du mouvement peut également être utilisé pour contrôler les machines et les interfaces sans les toucher, uniquement par des gestes, ou encore dans les sports où il permet de suivre les joueurs et le ballon. Les feux de signalisation sont également devenus plus efficaces grâce au suivi des mouvements et du flux de trafic.

Même les supermarchés utilisent le suivi des mouvements en observant les itinéraires empruntés par les acheteurs lorsqu’ils se déplacent dans le magasin. Ces données sont ensuite utilisées pour prendre des décisions de planification et d’aménagement afin de canaliser le flux de clients dans certaines directions. En effet, en suivant vos mouvements dans un supermarché, cette technologie pourrait bientôt être en mesure d’en déduire le coût de votre panier ! Simplement en identifiant les produits que vous avez pris tour à tour dans les rayons.

Conclusion partielle

Dans cet article, nous avons pu découvrir quels étaient les types de données les plus “communs” dans nos quotidiens : les données tabulaires, le texte, les sons, les images et vidéos. Nous avons pu voir à quel point l’on peut extraire de la valeur dans ces données, et aussi combien ces données peuvent nous aider à construire des systèmes d’IA toujours plus performants. Dans l’article suivant, nous allons aborder des données un peu plus surprenantes. Tellement surprenantes que vous ne les auriez peut-être même pas qualifiées de données auparavant - et pourtant, elles en sont bien ! Car oui, il faut le reconnaître : les données sont partout !

Prochain

Des données de partout !