Des données de partout !

Christian Luebbe @ EPFL Extension School · 14 minutes

Toujours plus variées, toujours plus nombreuses.

Dans Des données si différentes, nous avons commencé à vous présenter les différents types de données ainsi que certains cas d’usage de systèmes d’IA qui s’en servent. Rappelez-vous, nous avons notamment abordé les données suivantes :

    1. Les données tabulaires
    2. Le texte
    3. Les données audio
    4. Les données visuelles - images et vidéos

Mais il en existe bien d’autres ! Toute information, une fois enregistrée, devient une donnée exploitable. Dans cet article, nous vous présenterons encore cinq types de données supplémentaires et soulignerons les domaines dans lesquels ces données sont particulièrement utilisées par les systèmes d’IA :

    5. Les données et séries temporelles
    6. Les réseaux
    7. Les données géospatiales et de localisation
    8. Les émotions
    9. L’internet des objets

A la fin de cet article, vous serez certainement d’accord avec le titre : les données se trouvent partout !

Chaque objet qui nous entoure contient d'innombrables informations. Si vous pouvez enregistrer et saisir ces informations, vous pouvez les transformer en données.

5. Données et séries temporelles

Il est important de se rendre compte que les informations sont rarement statiques. Au contraire, elles ont tendance à se développer et à évoluer au fil du temps. Ainsi, nous enregistrons également les aspects temporels liés à nos données. Les enregistrements vidéos ou audios en sont des bons exemples.

Mais il existe bien d’autres exemples de données temporelles. Par exemple, nous pouvons enregistrer l’heure et la date d’un modèle météorologique particulier, ou la durée de la pluie par rapport à la durée d’ensoleillement. En effectuant ces enregistrements à intervalles réguliers, nous pouvons suivre les changements de température, par exemple au cours d’une semaine.

Les données temporelles nous permettent d’ordonner les données en séquences chronologiques. Ces séquences sont appelées séries chronologiques ou temporelles et elles nous aident à mieux comprendre les événements historiques. Nous pouvons les utiliser comme support pour enregistrer chacun des types de données présentés dans cet article et le précédent, simplement avec une dimension temporelle supplémentaire. Par exemple, nos messages sur les réseaux sociaux sont essentiellement du texte, mais si l’on exploite notre historique entier, alors cela devient une série temporelle de textes.

Similairement, nous pouvons mesurer le temps qui s’écoule entre des événements isolés. Nous pouvons également étudier des événements récurrents comme les naissances et demander à quelle fréquence ils se produisent. Nous pouvons examiner les changements de quantités au fil du temps en comptant le nombre de fois qu’une activité se produit au cours d’une période donnée. Il y a également des tendances à long terme et des influences saisonnières à imaginer et à prendre en compte. Un géologue pourrait envisager une série temporelle de plusieurs millions d’années.

L’enregistrement de ces données donne aux entreprises la possibilité de faire des plans sur l’avenir. Quand est-ce que les gens ont tendance à réserver des billets d’avion ? Quand les gens achètent-ils le plus de glaces ? Apprendre du passé nous aide à planifier l’avenir et si nous connaissons les moments où la demande pour certains biens et services est la plus forte, nous pouvons capitaliser sur ces informations.

Des analyses détaillées des données temporelles peuvent nous aider à identifier les relations de cause à effet, augmentant encore l’exactitude de nos prévisions. Cependant, dans de nombreuses situations, nous trouvons un grand nombre d’influences et de quantités différentes interagissant les unes avec les autres de manière très complexe.

Un avion utilise des millions de composants mobiles individuels et de systèmes électroniques qui interagissent les uns avec les autres pour maintenir l’avion dans les airs et sur la bonne route. Il peut sembler impossible d’identifier des structures et des relations au sein de ces données temporelles compliquées, mais il est essentiel que nous le fassions pour la sécurité des passagers et de l’équipage. Heureusement, l’immense capacité de calcul des technologies d’IA signifie qu’elle peut observer des schémas dans des systèmes complexes qu’un cerveau humain ne pourrait jamais détecter.

Tout comme les humains, les systèmes d’IA apprennent des événements passés et extraient des modèles et des informations qui leur permettent de prédire l’avenir. Les données de séries chronologiques jouent un rôle important dans de nombreux domaines différents, de sorte que le potentiel de cette technologie de l’IA est très large. Les données chronologiques aident par exemple les entreprises à planifier les budgets et les stocks, et à prévoir les ventes et les coûts attendus. Les données chronologiques les aident également à identifier leurs clients les plus fidèles ainsi que ceux qui sont sur le point d’acheter ailleurs.

Les humains n’enregistrent d’eux-mêmes qu’une infime partie des données de séries chronologiques à notre disposition. La plupart de ces données sont en réalité collectées automatiquement par des capteurs et des machines pour la simple raison qu’ils sont bien meilleurs que nous pour enregistrer de manière fiable une large gamme de signaux sur de longues périodes. Prenez par exemple les trackers d’activité et les montres connectées. Ils contiennent des accéléromètres qui mesurent les changements de mouvement. Avec l’aide de l’IA, ils savent si vous marchez, courez ou faites du vélo. C’est un peu comme quand les compagnies d’assurance automobile surveillent et caractérisent les styles de conduite des automobilistes afin de pouvoir ajuster leurs primes en conséquence.

Les données chronologiques peuvent également aider à identifier des activités frauduleuses. Les banques et les sociétés de cartes de crédit utilisent déjà les technologies d’IA pour repérer les tendances suspectes, mais le risque de fraude existe également sur les plateformes de jeux en ligne où les utilisateurs peuvent souvent effectuer plusieurs achats dans un délai relativement court. L’IA utilise des données de séries chronologiques pour indiquer lesquelles de ces transactions entrent dans les limites du comportement normal et lesquelles semblent suspectes.

6. Réseaux

Un réseau décrit une série de points, connectés ou non, dont les connexions peuvent être attribuées d’une importance relative. Les points d’un réseau, également appelés nœuds, peuvent représenter n’importe quel concept, des personnes, des endroits, mais aussi des choses plus abstraites, comme des mots.

Un réseau de transports publics se compose ainsi de différents arrêts de bus et de tramway - ce sont les nœuds. Les connexions entre ces nœuds sont les itinéraires de bus et de tram. L’importance de chaque correspondance pourrait ici être mesurée en fonction du nombre de bus ou de tramways y passant à chaque heure, ou en fonction de la distance parcourue jusqu’à l’arrêt suivant sur la ligne.

Il est facile de représenter ces réseaux en un seul diagramme :