Des données de partout !

Christian Luebbe @ EPFL Extension School · 14 minutes

Toujours plus variées, toujours plus nombreuses.

Dans Des données si différentes, nous avons commencé à vous présenter les différents types de données ainsi que certains cas d’usage de systèmes d’IA qui s’en servent. Rappelez-vous, nous avons notamment abordé les données suivantes :

    1. Les données tabulaires
    2. Le texte
    3. Les données audio
    4. Les données visuelles - images et vidéos

Mais il en existe bien d’autres ! Toute information, une fois enregistrée, devient une donnée exploitable. Dans cet article, nous vous présenterons encore cinq types de données supplémentaires et soulignerons les domaines dans lesquels ces données sont particulièrement utilisées par les systèmes d’IA :

    5. Les données et séries temporelles
    6. Les réseaux
    7. Les données géospatiales et de localisation
    8. Les émotions
    9. L’internet des objets

A la fin de cet article, vous serez certainement d’accord avec le titre : les données se trouvent partout !

Chaque objet qui nous entoure contient d'innombrables informations. Si vous pouvez enregistrer et saisir ces informations, vous pouvez les transformer en données.

5. Données et séries temporelles

Il est important de se rendre compte que les informations sont rarement statiques. Au contraire, elles ont tendance à se développer et à évoluer au fil du temps. Ainsi, nous enregistrons également les aspects temporels liés à nos données. Les enregistrements vidéos ou audios en sont des bons exemples.

Mais il existe bien d’autres exemples de données temporelles. Par exemple, nous pouvons enregistrer l’heure et la date d’un modèle météorologique particulier, ou la durée de la pluie par rapport à la durée d’ensoleillement. En effectuant ces enregistrements à intervalles réguliers, nous pouvons suivre les changements de température, par exemple au cours d’une semaine.

Les données temporelles nous permettent d’ordonner les données en séquences chronologiques. Ces séquences sont appelées séries chronologiques ou temporelles et elles nous aident à mieux comprendre les événements historiques. Nous pouvons les utiliser comme support pour enregistrer chacun des types de données présentés dans cet article et le précédent, simplement avec une dimension temporelle supplémentaire. Par exemple, nos messages sur les réseaux sociaux sont essentiellement du texte, mais si l’on exploite notre historique entier, alors cela devient une série temporelle de textes.

Similairement, nous pouvons mesurer le temps qui s’écoule entre des événements isolés. Nous pouvons également étudier des événements récurrents comme les naissances et demander à quelle fréquence ils se produisent. Nous pouvons examiner les changements de quantités au fil du temps en comptant le nombre de fois qu’une activité se produit au cours d’une période donnée. Il y a également des tendances à long terme et des influences saisonnières à imaginer et à prendre en compte. Un géologue pourrait envisager une série temporelle de plusieurs millions d’années.

L’enregistrement de ces données donne aux entreprises la possibilité de faire des plans sur l’avenir. Quand est-ce que les gens ont tendance à réserver des billets d’avion ? Quand les gens achètent-ils le plus de glaces ? Apprendre du passé nous aide à planifier l’avenir et si nous connaissons les moments où la demande pour certains biens et services est la plus forte, nous pouvons capitaliser sur ces informations.

Des analyses détaillées des données temporelles peuvent nous aider à identifier les relations de cause à effet, augmentant encore l’exactitude de nos prévisions. Cependant, dans de nombreuses situations, nous trouvons un grand nombre d’influences et de quantités différentes interagissant les unes avec les autres de manière très complexe.

Un avion utilise des millions de composants mobiles individuels et de systèmes électroniques qui interagissent les uns avec les autres pour maintenir l’avion dans les airs et sur la bonne route. Il peut sembler impossible d’identifier des structures et des relations au sein de ces données temporelles compliquées, mais il est essentiel que nous le fassions pour la sécurité des passagers et de l’équipage. Heureusement, l’immense capacité de calcul des technologies d’IA signifie qu’elle peut observer des schémas dans des systèmes complexes qu’un cerveau humain ne pourrait jamais détecter.

Tout comme les humains, les systèmes d’IA apprennent des événements passés et extraient des modèles et des informations qui leur permettent de prédire l’avenir. Les données de séries chronologiques jouent un rôle important dans de nombreux domaines différents, de sorte que le potentiel de cette technologie de l’IA est très large. Les données chronologiques aident par exemple les entreprises à planifier les budgets et les stocks, et à prévoir les ventes et les coûts attendus. Les données chronologiques les aident également à identifier leurs clients les plus fidèles ainsi que ceux qui sont sur le point d’acheter ailleurs.

Les humains n’enregistrent d’eux-mêmes qu’une infime partie des données de séries chronologiques à notre disposition. La plupart de ces données sont en réalité collectées automatiquement par des capteurs et des machines pour la simple raison qu’ils sont bien meilleurs que nous pour enregistrer de manière fiable une large gamme de signaux sur de longues périodes. Prenez par exemple les trackers d’activité et les montres connectées. Ils contiennent des accéléromètres qui mesurent les changements de mouvement. Avec l’aide de l’IA, ils savent si vous marchez, courez ou faites du vélo. C’est un peu comme quand les compagnies d’assurance automobile surveillent et caractérisent les styles de conduite des automobilistes afin de pouvoir ajuster leurs primes en conséquence.

Les données chronologiques peuvent également aider à identifier des activités frauduleuses. Les banques et les sociétés de cartes de crédit utilisent déjà les technologies d’IA pour repérer les tendances suspectes, mais le risque de fraude existe également sur les plateformes de jeux en ligne où les utilisateurs peuvent souvent effectuer plusieurs achats dans un délai relativement court. L’IA utilise des données de séries chronologiques pour indiquer lesquelles de ces transactions entrent dans les limites du comportement normal et lesquelles semblent suspectes.

6. Réseaux

Un réseau décrit une série de points, connectés ou non, dont les connexions peuvent être attribuées d’une importance relative. Les points d’un réseau, également appelés nœuds, peuvent représenter n’importe quel concept, des personnes, des endroits, mais aussi des choses plus abstraites, comme des mots.

Un réseau de transports publics se compose ainsi de différents arrêts de bus et de tramway - ce sont les nœuds. Les connexions entre ces nœuds sont les itinéraires de bus et de tram. L’importance de chaque correspondance pourrait ici être mesurée en fonction du nombre de bus ou de tramways y passant à chaque heure, ou en fonction de la distance parcourue jusqu’à l’arrêt suivant sur la ligne.

Il est facile de représenter ces réseaux en un seul diagramme :

Réseau de transport public du trafic ferroviaire local dans la région du Léman autour du lac Léman.

Bien qu’il soit facile de créer un diagramme pour un simple réseau de transport, il semblerait impossible de faire de même pour quelque chose comme le World Wide Web,1 le réseau de tous les sites Web du monde entier communément appelé “Internet”. Vous ne pourriez pas non plus le faire pour les plateformes de réseaux sociaux. Ces réseaux ont jusqu’à 2,7 milliards d’utilisateurs (nœuds) et chacun de ces utilisateurs a en moyenne 300 amis (connexions).

En revanche, nous pouvons identifier les groupes et les points communs dans ces réseaux plus importants lorsque nous les analysons avec la technologie de l’IA. Parmi ces groupes, nous pouvons tenter de prédire quels types de publications sur les réseaux sociaux atteindront des niveaux élevés d’engagement. Ce type d’informations est extrêmement précieux pour les entreprises de marketing et de publicité, et il renseigne sur le type de contenu qu’elles créent et déploient sur leurs réseaux sociaux. Cependant, les mêmes informations peuvent également être utilisées pour répandre des rumeurs et de fausses informations.

Les réseaux très complexes existent également dans le monde réel. Les réseaux physiques tels que les réseaux routiers et ferroviaires multinationaux, les réseaux électriques et d’autres éléments d’infrastructure importante nécessitent beaucoup de planification intelligente et d’allocation des ressources. Les applications d’IA sont capables de le faire de manière beaucoup plus efficace et précise que les humains. Les détaillants utilisent l’IA pour organiser la logistique dans leur chaîne d’approvisionnement et déployer leurs ressources là où elles seront les plus efficaces. De retour en ligne, les services de streaming utilisent l’IA pour gérer les réseaux de serveurs en fonction de l’évolution des demandes des consommateurs tout au long de la journée.

7. Données géospatiales et de localisation

Map

Présentation de tous les arrêts de transports publics en Suisse.

Il n’y a pas si longtemps, lorsque nous devions trouver un endroit en particulier, nous devions regarder une carte en papier ou demander à un inconnu de nous indiquer l’itinéraire. De nos jours, nous pouvons ouvrir une application sur nos téléphones ou utiliser un système de navigation dans nos véhicules pour directement trouver le chemin. Tout cela grâce au Global Positioning Systems (GPS) qui connaît notre emplacement par rapport à notre destination souhaitée. Ces systèmes peuvent même trouver un moyen d’aller là où nous le voulons en évitant la circulation.

Les applications mobiles utilisent le GPS pour nous donner toutes sortes d’informations sur notre environnement. Sur nos écrans, nous pouvons découvrir où se trouvent tous les magasins et restaurants et où nous pourrions trouver un taxi. Et même lorsqu’un signal GPS fiable n’est pas disponible, nous pouvons toujours accéder aux informations géospatiales à partir d’un point d’accès Wi-Fi local.

Il existe deux manières de capturer des informations liées à nos emplacements. Nous pouvons utiliser un repère stationnaire pour nous donner ce que nous appelons des données géospatiales, ou simplement des géodonnées. Les coordonnées GPS, les adresses postales ou les réseaux définis plus localement comme les plans d’étage dans les centres commerciaux ou les usines sont des exemples de données géographiques.

Sinon, nous pouvons utiliser un repère local, potentiellement mobile. C’est ce que nous humains utilisons pour percevoir et évaluer notre environnement immédiat par rapport à notre propre position. Les robots autonomes et les voitures autonomes utilisent un système local qui exploite des capteurs infrarouges, un radar et un lidar2 pour localiser les objets à proximité et les suivre.

Nous utilisons quotidiennement des données fondées sur la localisation dans ces applications de navigation, mais il existe de nombreux autres cas d’utilisation qui sont peut-être moins évidents. Encore une fois, nous retrouvons des applications de véhicule tourisme avec chauffeur (VTC) qui tirent le meilleur parti de ces nouvelles technologies. Elles examinent des points communs de prise en charge et de dépôt pour prévoir la demande future et envoyer les chauffeurs dans ces zones.

Les compagnies d’assurance utilisent des données de localisation pour calculer votre assurance ménage. Votre quartier est-il particulièrement touché par la criminalité ? Risque-t-il des inondations ? Ces données jouent également un rôle important dans l’industrie énergétique où l’IA aide les décideurs à trouver des réservoirs de pétrole brut et des emplacements optimaux pour les parcs éoliens.

Les informations de géolocalisation sont également d’une importance vitale lorsqu’il s’agit d’organiser une réponse rapide à une catastrophe naturelle ou à une crise humanitaire en cours. Les systèmes d’IA analysent automatiquement les images satellites pour évaluer l’étendue des dégâts, le nombre de personnes impactées et l’accessibilité de la zone affectée.

Elles sont régulièrement utilisées en santé publique pour tenter de découvrir des liens entre des groupes de personnes souffrant de maladies telles que des maladies respiratoires et des environnements présentant des taux élevés de pollution. L’une des premières utilisations connues de l’analyse géospatiale en épidémiologie est survenue pendant l’épidémie du choléra à Londres entre 1849 et 1854. En cartographiant les emplacements des personnes infectées par la maladie, John Snow a pu identifier une pompe à eau comme source probable. Aujourd’hui, l’IA utilise les données de géolocalisation pour suivre la propagation des virus comme Ebola et le SARS-CoV-2 de manière similaire, mais beaucoup plus efficace.

8. Émotions

Rien ne nous définit plus, en tant qu’êtres humains, que nos émotions et nos sentiments; il n’est donc pas surprenant qu’ils soient incroyablement difficiles à identifier et à enregistrer avec des capteurs.

Cependant, nous laissons de nombreux indices sur notre état émotionnel dans nos activités en ligne. Beaucoup de nos actions en ligne peuvent dire quelque chose sur ce que nous ressentons : les mots et les expressions que nous utilisons dans les messages, les avis et les messages que nous publions, l’utilisation d’emoji ou encore les mentions «j’aime». Les réseaux sociaux utilisent des algorithmes pour capturer tous ces indices et ainsi créer un profil personnel pour chaque utilisateur.

😃😆😅🤣😊😇😉😍😘😋😜🤪🤨🧐😢😏😒😔😟😖😫😭😤😡🤬🤯😳😱🤗😰🤔🤭🤫😬😧😴🤤😵🤐🤧🤒🤕
Les émojis sont un moyen très efficace de communiquer des émotions de manière compacte. Un ensemble d'emoji de plus en plus diversifié permet de décrire des sentiments de plus en plus différenciés.

Déjà 250 mentions «J’aime» fournissent suffisamment d’informations pour que les technologies d’IA puissent déterminer vos caractéristiques démographiques et psychologiques. À partir de là, elles peuvent prédire votre opinion sur différents sujets avec plus de précision que vos parents ou même votre conjoint. Grâce à ces informations, les réseaux sociaux savent quels posts susciteront vos réactions et votre engagement.

Ces techniques de profilage psychologique peuvent être utilisées pour cibler votre fil d’actualités avec un contenu qui influencera activement vos émotions et vos opinions ultérieures. Une société de données appelée Cambridge Analytica a démontré plusieurs fois dans le monde comment influencer la manière dont les personnes peuvent voter aux élections.

9. L’internet des objets

De plus en plus de machines et d’appareils collectent des données par le biais de capteurs intégrés et les partagent sur Internet. Ces appareils peuvent interagir entre eux et nous pouvons les surveiller et les contrôler à distance.

Ils seront rentrés du travail en 20 minutes ! - Parfait, le café est presque prêt ! - Oh, non ! J'ai oublié de commander du lait !

Les machines peuvent diffuser des données en direct à partir de sites distants, ce qui permet aux ingénieurs d’exécuter des diagnostics, de déployer des mises à jour logicielles et d’effectuer d’autres formes de maintenance sans avoir à visiter le site réel.

Ce réseau d’appareils interconnectés est appelé Internet des objets (IoT pour Internet of Things) et produit beaucoup de données différentes. Dans un futur proche, on peut imaginer que les appareils électroménagers comme les réfrigérateurs feront partie de ce réseau et auront une connectivité qui leur permettra d’ajouter des articles à votre liste d’achat, ou même de passer la commande par eux-mêmes.

Il existe déjà de nombreux dispositifs de ce type dans le secteur de la santé qui aident à soigner les personnes âgées et malades en surveillant leurs signes vitaux. Ces dispositifs produisent un flux régulier de données qui peuvent être analysées pour détecter des anomalies. Lorsqu’ils détectent un signe préoccupant comme un rythme cardiaque irrégulier ou une respiration bruyante, ils peuvent envoyer une alerte aux médecins et aux soignants à proximité et ainsi gagner du temps potentiellement vital pour les diagnostics et les interventions.

Un tout est plus grand que la somme de ses parties

Dans cet article et le précédent nous vous avons présenté un certain nombre de données différentes et en avons profité pour souligner certaines manières d’en tirer de la valeur. Nous avons aussi vu combien il est possible pour les systèmes d’IA de se nourrir de ces données afin de prendre des décisions.

Nous avons présenté toutes ces données de manière séparée, mais il faut garder à l’esprit que souvent, il est possible de combiner tous ces types de données afin d’aller encore plus loin, à l’image du format vidéo (combinaison d’images, d’audio et le tout de manière séquentiel) qui transmet encore plus d’informations que si chacun de ces médias était pris séparément.

En effet, lorsque nous regardons une combinaison d’images et de sons, nous pouvons être en mesure d’identifier l’orateur ainsi que le contexte de ce qui est dit. Lorsque plusieurs formats de données sont combinés, la capacité des systèmes d’IA à créer de la valeur augmente de manière exponentielle. Qui sait comment l’IA réussira à combiner et exploiter tous ces différents types de données à l’avenir !

Les entreprises dans le domaine de l’énergie nous fournissent un autre exemple où les systèmes d’IA sont impliqués à chaque étape des opérations commerciales. Ils utilisent l’IA, formée sur le comportement des utilisateurs, pour prédire la demande future et l’offre d’énergie renouvelable en examinant les schémas météorologiques régionaux. Ces deux prédictions sont ensuite utilisées par un autre système d’IA pour planifier la production d’électricité et le stockage d’énergie. Tout cela est coordonné avec le réseau national pour faire face aux périodes de pointe et distribuer l’énergie quand elle est nécessaire. Contrairement aux algorithmes standard, l’IA offre la flexibilité nécessaire pour répondre rapidement et efficacement à des exigences en constante évolution.

Tout est analysable et précieux pour quelqu’un

Notre ADN code tout ce qui fait de nous ce que nous sommes, de la couleur de nos yeux à la forme de notre nez, en passant par notre capacité à courir vite ou notre probabilité de développer la maladie d’Alzheimer. Le séquençage de génomes entiers est devenu nettement plus rapide, plus facile et moins cher au cours de la dernière décennie. Les instituts de recherche et les sociétés pharmaceutiques travaillent à l’identification des gènes associés à différentes maladies et étudient la façon dont les patients réagiront aux médicaments en fonction de leur profil ADN.

La technologie de l’IA est idéale dans ce domaine, car elle est équipée pour détecter le type de modèles cachés que vous vous attendriez à trouver dans des ensembles de données d’ADN complexes et volumineux. Même les données naturelles sont désormais soumises à l’interprétation de l’IA.

Il doit maintenant être clair que du moment que quelque chose peut être enregistré, alors cela peut devenir des données. Et à partir de là, ces données peuvent être utilisées pour former les systèmes d’IA ou les alimenter pour en tirer des informations et des résultats. Cette double utilisation est la raison pour laquelle les données elles-mêmes sont devenues une marchandise si précieuse et si recherchée. Quelque chose qui peut être récolté, extrait, affiné et échangé !

  1. Avec le projet Opte, Barrett Lyon a visualisé en 2003 au moins une petite partie de l’internet. 

  2. Lidar est l’acronyme de l’expression en langue anglaise « light detection and ranging », soit en français « détection et estimation de la distance par la lumière ». 

Prochain

L’IA et la philosophie