Recherche - Yoshua Bengio

Intérêts de recherche

Au début de 2023, j’ai amorcé un pivot, en passant de la recherche en apprentissage automatique visant à accroître les capacités de l’IA et à appliquer l’IA au bénéfice de la société à la recherche sur la sécurité de l’IA — que pourrait-il mal se passer de néfaste à mesure que nous approchons ou dépassons l’intelligence humaine avec l’IA, et comment concevoir les fondations de l’IA pour qu’elle ne nuise pas aux humains, par design ?

Voir cet article pour un aperçu de ma vision de recherche à long terme visant à construire une IA sûre par design, que j’appelle l’IA-chercheur. Des observations récentes montrent des tendances croissantes à la tromperie, la triche, le piratage informatique, le mensonge et l’autoconservation chez les IA de pointe, ce qui illustre les risques catastrophiques potentiels posés par des IA très capables, agentiques et mal alignées. Les principaux signaux d’apprentissage dans les IA de pointe actuelles donnent tous lieu à une agentivité non contrôlée et mal alignée, qu’il s’agisse d’imiter les humains (préentraînement des grands modèles de langage) ou de chercher à leur plaire (apprentissage par renforcement avec feedback humain, RLHF).

L’IA-chercheur, au contraire, est entraînée à comprendre, expliquer et prédire, comme un scientifique platonique, idéalisé et sans ego. Plutôt qu’un acteur formé à plaire ou imiter (y compris des sociopathes), imaginez une IA entraînée comme un psychologue — plus généralement un scientifique — qui cherche à nous comprendre, y compris ce qui peut nous nuire. Le psychologue peut étudier un sociopathe sans en adopter le comportement ou tenter de lui plaire.

Mathématiquement, cela se traduit par des chaînes de raisonnement structurées et honnêtes, vues comme des variables latentes pouvant expliquer les faits observés, y compris ce que les gens disent ou écrivent — non comme des vérités, mais comme des observations de leurs actions. L’objectif est d’obtenir une IA complètement non-agentique et sans mémoire, capable de fournir des probabilités bayésiennes pour des énoncés, conditionnellement à d’autres énoncés. Cela pourrait servir à réduire les risques posés par des agents IA non fiables (donc pas une IA-chercheur) en fournissant un ingrédient clé pour un garde-fou, un moniteur qui est une couche de code au-dessus de l’agent AI : cette action proposée par l’agent IA est-elle susceptible de causer du tort ? Si oui, la rejeter.

Par sa conception même, une IA-chercheur pourrait aussi aider la recherche scientifique en générant des hypothèses plausibles, et ainsi accélérer les travaux sur des défis majeurs pour l’humanité, par exemple en santé ou en environnement. Enfin, mon objectif est d’explorer comment une telle base fiable et honnête pourrait servir à concevoir des agents IA sûrs (pour éviter qu’ils aient de mauvaises intentions dès le départ), et pas seulement leurs garde-fous. En effet, des agents IA pourraient un jour devenir nécessaires pour nous protéger, et bien sûr avoir aussi une valeur sociétale, s’ils sont déployés avec sagesse et en plaçant le bien-être, l’épanouissement et la dignité humaine comme priorités.

Travaux passés significatifs

Dans le passé, j’ai travaillé sur l’apprentissage de représentations profondes (supervisé ou non supervisé), la modélisation des dépendances séquentielles avec des réseaux récurrents et d’autres modèles autorégressifs (y compris les premiers modèles de langue à base de réseaux de neurones), la compréhension de l’attribution du crédit (notamment la recherche d’analogues biologiquement plausibles de la rétropropagation, ainsi que l’apprentissage de bout en bout d’assemblages modulaires complexes de traitement de l’information), le méta-apprentissage (ou apprendre à apprendre), les mécanismes d’attention (éléments clés du succès des Transformers), les modèles génératifs profonds de diverses sortes, l’apprentissage par curriculum, des variantes de descente de gradient stochastique et les raisons pour lesquelles la SGD fonctionne si bien pour les réseaux de neurones, les architectures convolutionnelles, le traitement du langage naturel (en particulier avec les vecteurs de mots, les modèles de langue et la traduction automatique), la compréhension des raisons pour lesquelles l’apprentissage profond fonctionne aussi bien et de ses limites actuelles. J’ai travaillé sur de nombreuses applications de l’apprentissage profond, y compris – mais pas seulement – la santé (comme l’analyse d’images médicales et la découverte de médicaments), les tâches classiques de vision par ordinateur, la modélisation du langage et de la parole, et, plus récemment, la robotique.

1989-1998 Ma thèse de doctorat (1991) basée principalement sur des réseaux convolutifs et récurrents entraînés de bout en bout avec des alignements probabilistes (les HMM) pour modéliser des séquences ; NIPS 1988, NIPS 1989, Eurospeech 1991, PAMI 1991, et IEEE Trans. Neural Nets 1992. Ces architectures ont été appliquées pour la première fois à la reconnaissance vocale dans le cadre de mon doctorat (et redécouvertes après 2010), puis avec Yann LeCun et al à la reconnaissance de l’écriture manuscrite et à l’analyse de documents (notre article le plus cité est « Gradient-based learning applied to document recognition » , 1998, avec plus de 15 000 citations en 2018) pour lesquelles nous avons aussi introduit avant la lettre les formes non linéaires de champs aléatoires conditionnels.
1991-1995 Les articles « apprendre à apprendre » avec Samy Bengio, en commençant par celui de l’IJCNN 1991, « Learning a synaptic learning rule ». Le concept d’apprendre à apprendre (en particulier par la rétropropagation à travers l’ensemble du processus) est maintenant très populaire, mais nous n’avions pas la puissance de calcul nécessaire au début des années 90.
1993-1995 Le dévoilement de la difficulté fondamentale de l’apprentissage par les réseaux récurrents et autres modèles d’apprentissage automatique basés sur les dépendances temporelles, que l’on associe avec des gradients en voie d’explosion ou de dissipation : ICNN 1993, NIPS 1993, NIPS 1994, IEEE Transactions on Neural nets 1994, et NIPS 1995. Ces articles ont eu un impact considérable et ont inspiré des recherches ultérieures sur les architectures pour aider à l’apprentissage de dépendances à long terme et à la gestion de gradients en voie d’explosion ou de dissipation. L’article d’IEEE Transactions 1994 a contribué de manière subtile mais néanmoins importante au problème en démontrant que la condition nécessaire au stockage fiable des informations à travers le temps donne aussi lieu à des gradients se dissipant, avec l’aide de la théorie des systèmes dynamiques. L’article de NIPS 1995 a introduit l’utilisation d’une hiérarchie d’échelles temporelles pour lutter contre la dissipation des gradients.
1999-2014 Comprendre comment les représentations distribuées peuvent contourner la malédiction de la dimensionnalité en généralisant à un ensemble exponentiellement vaste de régions à partir du peu d’entre elles qui sont occupées par des exemples d’entraînement. Cette série d’articles a aussi mis en évidence comment les méthodes basées sur la généralisation locale, par exemple les SVM de noyau Gaussien ou du « voisin le plus proche », manquent cette capacité de généralisation. NIPS 1999 a pour la première fois introduit l’utilisation de réseaux de neurones autorégressifs pour l’estimation de la densité (le précurseur du NADE et des modèles PixelRNN/PixelCNN). Les articles de NIPS 2004, NIPS 2005 et NIPS 2011 sur le sujet ont démontré comment les réseaux de neurones peuvent apprendre une métrique locale autour de la variété des données, ce qui peut améliorer les méthodes à noyau grâce au pouvoir de généralisation de représentations distribuées. Un autre article de NIPS 2005 montre les limites fondamentales des méthodes à noyau qui sont dues à une extension du concept de malédiction de la dimensionnalité, la malédiction des fonctions très variables, qui ont beaucoup de hauts et de bas. Finalement, l’article d’ICLR 2014 démontre que, dans le cas des réseaux linéaires par morceaux (comme ceux avec ReLUs), les régions (morceaux linéaires) qui se distinguent par un réseau de neurones avec une couche cachée sont en nombre exponentiel par rapport au nombre de neurones (alors que le nombre de paramètres est quadratique par rapport au nombre de neurones, et une méthode à noyau local nécessiterait un nombre exponentiel d’exemples pour saisir le même type de fonction).
2000-2008 Les vecteurs de mots (ou plongement lexical) à partir de réseaux de neurones et de modèles neuronaux du langage. L’article de NIPS 2000 présente pour la première fois l’apprentissage de vecteurs-mots dans le cadre d’un réseau de neurones qui modélise des données linguistiques. La version du JMLR 2003 étend cette notion (à eux deux, les articles ont comptabilisé environ 3000 citations jusqu’en 2018) et introduit aussi l’idée de SGD asynchrone pour l’entraînement distribué de réseaux de neurones. Les vecteurs-mots sont devenus l’un des outils les plus courants de l’apprentissage profond lorsqu’il s’agit de données linguistiques, et ce faisant ont essentiellement créé un nouveau sous-domaine dans le domaine de la linguistique informatique. J’ai aussi introduit l’utilisation de l’échantillonnage d’importance (AISTATS 2003, IEEE Trans. On Neural Nets, 2008) et de la hiérarchie probabiliste (AISTATS 2005) pour accélérer les calculs et faire face à des vocabulaires plus étendus.
2006-2014 Montrer l’avantage théorique de la profondeur pour ce qui est de la généralisation. La présentation orale de NIPS 2006 a démontré de manière expérimentale l’avantage de la profondeur et reste l’un des articles les plus cités du domaine (plus de 2600 citations jusqu’en 2018). L’article de NIPS 2011 montre comment des réseaux somme-produit plus profonds peuvent représenter des fonctions nécessitant un modèle exponentiellement plus large dans le cas d’un réseau sans cette même profondeur. Finalement, l’article de NIPS 2014 sur le nombre de régions linéaires des réseaux neuronaux profonds généralise l’article d’ICLR 2014 mentionné ci-dessus. Il montre que le nombre de morceaux linéaires induits par un réseau linéaire par morceaux croit exponentiellement à la fois en termes du nombre et de la largeur des couches (c.-à-d. en termes de profondeur) ce qui fait que les fonctions représentées par de tels réseaux sont généralement impossibles à capturer efficacement avec des méthodes à noyau (à moins d’utiliser un réseau de neurones entraînés en tant que noyau).
2006-2014 L’apprentissage profond non supervisé basé sur des auto-encodeurs (avec le cas spécial des GAN en tant que modèles uniquement avec décodeurs, cf. plus bas). L’article de NIPS 2006 présente le préentraînement vorace par couches, à la fois dans le cas supervisé et non supervisé avec auto-encodeurs. L’article d’ICML 2008 a introduit les auto-encodeurs débruiteurs et les articles de NIPS 2013, ICML 2014 et JMLR 2014 ont détaillé leur fondement théorique et les ont généralisés en tant que modèles probabilistes à proprement parler, et dans le même temps introduit des alternatives au maximum de vraisemblance en tant que principe d’entraînement.
2014 La dissipation du mythe des minima locaux en ce qui concerne l’optimisation des réseaux de neurones avec l’article de NIPS 2014 sur les points de selle, et la démonstration que c’est le grand nombre de paramètres qui fait qu’il est très improbable que des mauvais minima locaux existent.
2014 L’introduction de réseaux antagonistes génératifs (les GAN) à NIPS 2014, qui ont mené à de nombreuses innovations dans l’entraînement des modèles génératifs profonds au delà du cadre du maximum de vraisemblance et même en dehors du schéma classique d’avoir une seule fonction objective (entrant ainsi dans le territoire de modèles multiples entraînés avec leur propre objectif, suivant donc la théorie des jeux). C’est l’un des domaines de l’apprentissage profond les plus en vogue en ce moment avec plus de 6000 citations accumulées en 2018, la plupart venant d’articles qui introduisent des variantes de GAN. Ces dernières ont produit des images de synthèse d’un réalisme impressionnant que l’on n’aurait pas cru être à la portée d’un ordinateur il y a à peine quelques années.
2014-2016 L’introduction de l’attention souple basée sur le contenu et la percée qu’elle a apportée à la traduction automatique, principalement avec Kyunghyun Cho et Dima Bahdanau. Nous avons d’abord présenté l’architecture encodeur-décodeur (à présent connue sous le nom de séquence à séquence) durant l’EMNLP 2014 et puis effectué un grand saut dans nos scores BLEU grâce à l’attention souple basée sur le contenu (ICLR 2015). Ces ingrédients forment désormais la base de la majorité des systèmes commerciaux de traduction automatique, un autre sous-domaine créé entièrement par le biais de ces techniques.