Recherche
Recherche en sécurité de l’IA
Au début de 2023, j’ai amorcé un pivot, en passant de la recherche en apprentissage automatique visant à accroître les capacités de l’IA et à appliquer l’IA au bénéfice de la société à la recherche sur la sécurité de l’IA—que pourrait-il mal se passer à mesure que nous approchons ou dépassons l’intelligence humaine avec l’IA, et comment concevoir les fondations de l’IA pour qu’elle soit honnête et ne nuise pas aux humains, par design ?
Voir cet article pour un aperçu de ma vision de recherche à long terme visant à construire une IA sûre par design, que j’appelle l’IA-chercheur. Des observations récentes montrent chez les IA de pointe des tendances croissantes à la tromperie, la triche, le piratage informatique, le mensonge et, plus inquiétant, l’autoconservation. Plus généralement, nous ne savons pas les mettre au point pour qu’elles respectent nos instructions, ce qui veut aussi dire que des personnes avec des intentions de nuire peuvent les utiliser. Tout cela illustre les risques catastrophiques potentiels posés par des IA très capables, agentiques—donc de plus en plus autonomes—et mal alignées avec nos intentions. Les principaux signaux d’apprentissage dans les IA de pointe actuelles donnent tous lieu à une agentivité non contrôlée et mal alignée, qu’il s’agisse d’imiter les humains (pré-entraînement des grands modèles de langage) ou de chercher à leur plaire (apprentissage par renforcement avec feedback humain, RLHF).
L’IA-chercheur, au contraire, est entraînée à comprendre, expliquer et prédire, comme un scientifique platonique, idéalisé et sans ego. Consultez la page Recherche de LoiZéro pour obtenir de plus amples détails.
Je suis à la recherche de chercheur·euse·s, scientifiques et ingénieur·e·s, qui souhaiteraient se joindre à moi dans cette quête. Merci de m’écrire si vous êtes intéressé·e et motivé·e par le développement de solutions techniques aux risques de l’IA.
Notez que je ne prends pas de nouveaux étudiant·e·s, afin de réduire la taille de mon groupe (qui est très grand) et de me consacrer pleinement à ce projet.
Travaux passés
Dans le passé, j’ai travaillé sur l’apprentissage de représentations profondes (supervisé ou non supervisé), la modélisation des dépendances séquentielles avec des réseaux récurrents et d’autres modèles autorégressifs (y compris les premiers modèles de langue à base de réseaux de neurones), la compréhension de l’attribution du crédit (notamment la recherche d’analogues biologiquement plausibles de la rétropropagation, ainsi que l’apprentissage de bout en bout d’assemblages modulaires complexes de traitement de l’information), le méta-apprentissage (ou apprendre à apprendre), les mécanismes d’attention (éléments clés qui ont mené au succès des Transformers), les modèles génératifs profonds de diverses sortes, l’apprentissage par curriculum, des variantes de descente de gradient stochastique et les raisons pour lesquelles la SGD fonctionne si bien pour les réseaux de neurones, les architectures convolutionnelles, le traitement du langage naturel (en particulier avec les vecteurs de mots, les modèles de langue et la traduction automatique), la compréhension des raisons pour lesquelles l’apprentissage profond fonctionne aussi bien et de ses limites actuelles. J’ai travaillé sur de nombreuses applications de l’apprentissage profond, y compris—mais pas seulement—la santé (comme l’analyse d’images médicales et la découverte de médicaments), les tâches classiques de vision par ordinateur, la modélisation du langage et de la parole, et, plus récemment, la robotique.