La malédiction de la dimension

17 mars 2020administrateurSociété0

Par Khedidja Boulanouar, Antoine Lerbet

Le progrès de la technologie a ouvert la porte à de nouveaux domaines de recherche tels que les sciences des données, en ce qui concerne, d’une part la récolte et le stockage de données généré d’une façon énorme, et d’autre part, la vitesse de traitement de ces données. Lors de sa leçon inaugurale au Collège de France, Stéphane Mallat a décrit l’objectif de cette science comme l’extraction de la connaissance à partir d’un grand ensemble de données, en utilisant des techniques provenant de différents horizons, citons, par exemple, l’informatique et les mathématiques avec en première ligne les statistiques.

Pour quelles applications ?

Il y a dix ans, on ne pouvait pas s’imaginer que le téléphone puisse avoir une autre utilisation que les appels téléphoniques. Aujourd’hui, ce n’est qu’une petite application de notre téléphone. En effet il peut, entre autres, être sécurisé par la reconnaissance faciale, détecter les mots les plus utilisés dans les messages ou écrire des messages en parlant…

En médecine, l’enjeu est de taille, la reconnaissance de pathologie sur une radio ou un scanner a pour but d’aider le médecin à prendre sa décision.

Un autre exemple est celui d’Internet, son utilisation quotidienne et mondiale montre son importance. Des algorithmes des moteurs de recherche, aux vidéos proposées par Youtube, en passant par les traducteurs de textes : les sciences des données sont omniprésentes.

La voiture autonome, grande thématique scientifique du moment, n’y échappe pas. Pour toutes situations rencontrées sur la route, l’apprentissage automatique a son rôle à jouer dans la prise de décision de la voiture. Ces exemples montrent la grande diversité d’application des sciences des données.

De l’apprentissage à la prédiction

Le but de l’algorithme est de pouvoir catégoriser les données. Afin d’illustrer ce qu’il appelle la «malédiction de la dimension», Stéphane Mallat imagine que l’on veut faire prédire à un ordinateur, à partir de deux paramètres (la température et la pression), l’état de l’eau (liquide, gazeux et solide). La première étape est celle de l’apprentissage, c’est-à-dire que pour certaines valeurs des paramètres observés on apprend à l’algorithme l’état de l’eau. Si l’échantillon observé lors de la phase d’apprentissage est assez grand, pour prédire l’état de l’eau il suffit de définir des frontières entre les états pour ainsi les classifier. Cependant, les problèmes que l’on se pose en sciences des données ont un très grand nombre de paramètres. Par exemple une image est de dimension d=10⁶ pixels, ainsi pour avoir une image assez proche d’une image fixée il faudrait avoir de l’ordre de 10^d images d’apprentissages, ce qui n’est pas réalisable en pratique puisque 10¹⁰⁰ est déjà plus grand que le nombre d’atomes de l’univers.

Leçon inaugurale au Collège de France de Stéphane Mallat, 11 janvier 2018 (19’30 minutes).

Une première approche expérimentée a été de réduire le nombre des paramètres, par exemple en compressant une image, cependant ce n’est pas suffisant car le nombre reste important. Une deuxième approche consiste à trouver une représentation des données afin de les caractériser et ainsi de pouvoir les classifier. Par exemple, si on veut caractériser les images d’un camion de pompier, on sait qu’il suffit de regarder la distribution des pixels rouges de l’image. Cependant, dans la plupart du temps l’humain n’est pas capable « à la main » de généraliser le raisonnement précédent. Pour trouver la représentation, les chercheurs en sciences des données proposent d’utiliser un algorithme inspiré de l’intelligence et du comportement humain bien connu des informaticiens : le réseau de neurones. Ce dernier est une suite d’instructions qui permettent d’associer à chaque entrée un paramètre, qui sera exploité par une suite de couche d’instructions pour donner la représentation des sorties recherchées.

Les limites d’utilisations

Dans le contexte de développement et de l’utilisation de données massives en vue de leurs exploitations dans l’aide à la prise de décision, les sciences de données ont trouvé une place primordiale pour résoudre beaucoup de problèmes du monde réel. Cependant, il existe des limites à cette science. Certaines problématiques dans des sciences, par exemple dans l’aéronautique, ne peuvent pas être résolues par un système d’apprentissage. En effet dans cet exemple, par raison de sécurité des passagers, l’erreur n’est pas envisageable. Dans un autre registre, la récolte de certaines données, notamment de la vie privée, peuvent poser un problème éthique…

Stéphane Mallat, né en 1962, est un mathématicien français spécialiste de la théorie des ondelettes qui a trouvé des applications dans le traitement de signal et le traitement d’image. Il a été élu à l’Académie des Sciences en 2014 et nommé au Collège de France en 2017. Il est désormais un acteur majeur de la science des données.

Cet article a été réalisé dans le cadre d’une formation à l’écriture journalistique avec l’École doctorale Sciences et ingénierie des systèmes, mathématiques, informatiques (Sismi) des universités de Poitiers et Limoges.

Auteurs

Khedidja Boulanouar est doctorante en informatique au laboratoire d’informatique et d’automatique pour les systèmes (Lias) à l’ENSMA, université de Poitiers.
Antoine Lerbet est doctorant au laboratoire de mathématiques et applications (LMA), spécialité probabilités et statistiques, de l’université de Poitiers.

algorithmes, collège de France, sciences des données, Stéphane Mallat