Déballer la « boîte noire » pour créer de meilleurs modèles d’IA
Les images à télécharger sur le site Web du bureau MIT News sont mises à la disposition des entités non commerciales, de la presse et du grand public sous une licence Creative Commons Attribution Non-Commercial No Derivatives. Vous ne pouvez pas modifier les images fournies, sauf pour les recadrer à leur taille. Une ligne de crédit doit être utilisée lors de la reproduction d'images ; si aucune n'est fournie ci-dessous, créditez les images à « MIT ».
Image précédente Image suivante
Lorsque les modèles d’apprentissage profond sont déployés dans le monde réel, peut-être pour détecter la fraude financière liée aux activités de carte de crédit ou identifier le cancer dans les images médicales, ils sont souvent capables de surpasser les humains.
Mais qu’apprennent exactement ces modèles d’apprentissage profond ? Un modèle formé pour détecter le cancer de la peau sur des images cliniques, par exemple, apprend-il réellement les couleurs et les textures des tissus cancéreux, ou signale-t-il d'autres caractéristiques ou motifs ?
Ces puissants modèles d’apprentissage automatique sont généralement basés sur des réseaux de neurones artificiels pouvant comporter des millions de nœuds qui traitent les données pour effectuer des prédictions. En raison de leur complexité, les chercheurs appellent souvent ces modèles des « boîtes noires », car même les scientifiques qui les construisent ne comprennent pas tout ce qui se passe sous le capot.
Stefanie Jegelka ne se contente pas de cette explication de « boîte noire ». Professeur agrégé nouvellement titulaire au département de génie électrique et d'informatique du MIT, Jegelka approfondit l'apprentissage profond pour comprendre ce que ces modèles peuvent apprendre et comment ils se comportent, et comment intégrer certaines informations préalables dans ces modèles.
« En fin de compte, ce qu’un modèle d’apprentissage profond apprendra dépend de nombreux facteurs. Mais développer une compréhension pertinente dans la pratique nous aidera à concevoir de meilleurs modèles, et nous aidera également à comprendre ce qui se passe à l'intérieur de ceux-ci afin que nous sachions quand nous pouvons déployer un modèle et quand nous ne le pouvons pas. C'est d'une importance cruciale », déclare Jegelka, qui est également membre du Laboratoire d'informatique et d'intelligence artificielle (CSAIL) et de l'Institut des données, des systèmes et de la société (IDSS).
Jegelka s'intéresse particulièrement à l'optimisation des modèles d'apprentissage automatique lorsque les données d'entrée se présentent sous forme de graphiques. Les données graphiques posent des défis spécifiques : par exemple, les informations contenues dans les données comprennent à la fois des informations sur les nœuds et les bords individuels, ainsi que sur la structure : ce qui est connecté à quoi. De plus, les graphiques présentent des symétries mathématiques qui doivent être respectées par le modèle d’apprentissage automatique afin que, par exemple, le même graphique conduise toujours à la même prédiction. Intégrer de telles symétries dans un modèle d’apprentissage automatique n’est généralement pas facile.
Prenons par exemple les molécules. Les molécules peuvent être représentées sous forme de graphiques, avec des sommets correspondant aux atomes et des arêtes correspondant aux liaisons chimiques entre eux. Les sociétés pharmaceutiques voudront peut-être utiliser l’apprentissage profond pour prédire rapidement les propriétés de nombreuses molécules, réduisant ainsi le nombre qu’elles doivent tester physiquement en laboratoire.
Jegelka étudie des méthodes permettant de créer des modèles mathématiques d'apprentissage automatique capables de prendre efficacement des données graphiques en entrée et en sortie d'autre chose, dans ce cas, une prédiction des propriétés chimiques d'une molécule. Ceci est particulièrement difficile puisque les propriétés d’une molécule sont déterminées non seulement par les atomes qui la composent, mais également par les connexions entre eux.
D'autres exemples d'apprentissage automatique sur les graphiques incluent le routage du trafic, la conception de puces et les systèmes de recommandation.
La conception de ces modèles est rendue encore plus difficile par le fait que les données utilisées pour les entraîner sont souvent différentes des données que les modèles voient dans la pratique. Le modèle a peut-être été formé à l'aide de petits graphiques moléculaires ou de réseaux de trafic, mais les graphiques qu'il voit une fois déployés sont plus grands ou plus complexes.
Dans ce cas, que peuvent espérer les chercheurs de ce modèle, et fonctionnera-t-il toujours dans la pratique si les données du monde réel sont différentes ?