Dimensions personnelles et psychologiques des chercheurs en IA face aux risques catastrophiques de l'IA

Le 31 mai 2023, une page web de la BBC titrait : «Le ‘parrain’ de l’IA, Yoshua Bengio, se sent ‘perdu’ face à l’œuvre de sa vie.» C’est une déclaration que je n’ai jamais faite, ni à la BBC ni à aucun autre média. J’ai bien essayé, lors de ces interviews, d’exprimer le défi psychologique auquel je faisais face. Mon objectif, ici, est de fournir une explication plus approfondie de mes propres interrogations intérieures et de les lier à une compréhension possible des désaccords prononcés entre les principaux chercheurs en IA concernant les risques majeurs liés à celle-ci, concernant en particulier la survie de l’humanité. Nous sommes en désaccord en dépit du fait que nous sommes généralement des collègues rationnels partageant des valeurs humanistes. Comment est-ce possible? Je vais soutenir que nous avons besoin de plus d’humilité, d’accepter que nous pourrions avoir tort, que nous sommes tous humains avec des biais cognitifs et que nous devons néanmoins prendre des décisions importantes dans un contexte d’incertitude élevée et d’absence de consensus.

Ce que j’ai réellement dit lors de l’interview à la BBC, c’est : «It is challenging, emotionally speaking, for people who are inside, especially if like myself, you’ve built your career, your identity around the idea of bringing something useful and good to society and to humanity and to science». Ce que je voulais dire, c’est que je changeais d’avis sur quelque chose de très personnel. Il s’agit de savoir si mon travail, dans sa trajectoire actuelle – cherchant à combler l’écart entre la pointe de la technologie en IA et l’intelligence humaine – est réellement bénéfique, ou s’il peut être dangereux pour l’humanité, compte tenu de la structure actuelle de la société et du fait que des outils d’une telle puissance ont une double utilisation, tant pour le bien que pour le mal. Je pense maintenant que nous ne sommes pas sur la bonne voie, que pour récolter les bénéfices de l’IA, éviter des conséquences catastrophiques, mieux comprendre et atténuer les risques, des changements importants sont nécessaires.

Pendant la majeure partie de ma carrière de chercheur, débutée en 1986, mon objectif a été purement scientifique : comprendre les principes de l’intelligence, son fonctionnement chez les entités biologiques et comment nous pourrions construire des intelligences artificielles. J’ai travaillé sur l’hypothèse selon laquelle quelques principes simples, par analogie avec la physique, pourraient expliquer l’intelligence. Les dernières décennies ont fourni des observations en faveur de cette hypothèse, basée sur l’idée que derrière la complexité apparente et massive des entités intelligentes – par exemple les milliards ou billions de paramètres dans de très grands réseaux neuronaux – se cachent des principes bien plus simples, ancrés dans la capacité à apprendre à partir de données et d’expérience. Durant la plupart de ces années, j’ai peu réfléchi à une double utilisation possible de notre science car nos résultats de recherche semblaient éloignés des capacités humaines et le travail était purement académique. C’était une pure quête de connaissance, belle, mais principalement détachée de la société jusqu’à il y a environ une décennie. Je pense maintenant que j’ai eu tort et que j’ai été myope en négligeant cette double utilisation possible. Je pense aussi que je n’ai pas suffisamment prêté attention à la possibilité de perte de contrôle d’IA surhumaines.

Au cours de la dernière décennie, la recherche en IA est passée d’un effort principalement académique à un projet avec une importante et désormais dominante composante industrielle. La technologie de l’apprentissage profond est de plus en plus déployée, avec la perspective que l’IA pourrait devenir le moteur de la croissance économique future dans les décennies à venir (voir l’impact annuel estimé à environ 20 billions de dollars par McKinsey ou l’estimation de Stuart Russell de 14 quadrillions de dollars de valeur actuelle nette dans son livre de 2019). Cette transition industrielle de la dernière décennie m’a incité à réfléchir beaucoup plus à l’impact social de l’IA. Je me suis concentré sur le bien qu’elle pourrait apporter – et celui qu’elle apporte déjà – au monde. J’ai continué à travailler sur des questions fondamentales, comme l’attention (qui a donné naissance aux Transformers, qui alimentent les LLM – les grands modèles de langue) des applications de l’IA en sciences biomédicales, la découverte de médicaments, la lutte contre le changement climatique et la correction des biais pouvant entraîner une discrimination. J’ai entamé une discussion avec mes collègues des sciences sociales et humaines sur la nécessité de garde-fous éthiques et législatifs, ce qui a conduit à la Déclaration de Montréal pour un développement responsable de l’IA en 2017-2018, à mon leadership du groupe de travail sur l‘IA responsable du Partenariat Mondial sur l’IA (2020-2022) et à notre travail récent avec l’UNESCO sur les Angles Morts de l’IA (2023).

J’ai lu et évalué le livre de Stuart Russell de 2019 (Human Compatible), ce qui a renforcé ma prise de conscience d’un risque existentiel possible pour l’humanité si nous ne conservons pas le contrôle sur les systèmes d’IA surhumains. J’ai compris intellectuellement ses arguments sur le danger potentiel du désalignement entre les intentions humaines et le comportement de l’IA, mais je n’ai pas pleinement assimilé ce que cela signifiait émotionnellement pour moi et ma propre carrière. La lecture du livre n’a pas changé ma croyance fondamentale selon laquelle, globalement, nous étions sur une bonne trajectoire avec la recherche en IA : bénéfique pour la science et pour la société, avec des impacts positifs attendus dans de nombreux domaines. Je pensais que le résultat serait positif moyennant quelques ajustements tels que des réglementations pour éviter la discrimination et l’interdiction des armes autonomes létales, et que, en dépit du fait que les préoccupations existentielles méritaient de l’attention, celles-ci ne deviendraient potentiellement pertinentes que dans un futur lointain. Je continuais à me sentir bien par rapport à l’orientation de mon travail, regardant, d’une certaine manière, ailleurs lorsque venait la question de la mauvaise utilisation et des conséquences catastrophiques possibles.

À cette époque, je croyais aux arguments, qui restent couramment partagés dans la communauté de l’IA, présentés pour écarter l’importance de tels risques. Une IA de niveau humain semblait plausible mais à des décennies, voire des siècles, de distance. Et les systèmes que nous mettions au point dans nos laboratoires étaient tellement incompétents par rapport aux humains qu’il était difficile de ressentir une menace, que ce soit à cause d’une mauvaise utilisation ou d’une perte de contrôle. Il semblait évident qu’avant d’en arriver à ce stade, nous récolterions une multitude de bénéfices sociaux en déployant les systèmes d’IA actuels et améliorés. L’IA de niveau humain semblant si éloignée, nous l’imaginions probablement très différente des méthodes actuelles, suggérant qu’il était difficile de concevoir des mécanismes de sécurité pour des systèmes d’IA encore inconnus. Il ne m’a même jamais traversé l’esprit de me demander si certaines connaissances pourraient être dangereuses ou si certains codes ne devraient pas être mis entre toutes les mains. J’estimais bénéfique que certaines personnes étudient la sécurité de l’IA, mais j’étais tout à fait satisfait de continuer dans ma voie, cherchant à découvrir comment introduire le système 2 – c’est-à-dire le raisonnement délibéré – dans l’apprentissage profond, un programme de recherche que j’ai commencé il y a près d’une décennie avec nos travaux sur l’attention.

Lorsque ChatGPT est sorti, ma première réaction a été de chercher ses points faibles. Comme beaucoup d’autres, j’ai trouvé des cas particuliers où il produisait des résultats incohérents, suggérant qu’il était encore loin d’atteindre les capacités du système 2. Cependant, un ou deux mois après sa sortie, j’étais de plus en plus impressionné par ses performances. J’ai commencé à réaliser que les meilleurs systèmes d’IA avaient essentiellement maîtrisé la langue, c’est-à-dire qu’ils réussissaient à un certain niveau statistique le test de Turing. C’était complètement inattendu, pour moi comme pour beaucoup d’autres. J’ai également remarqué que bien que ChatGPT puisse parfois fabuler, être incohérent par rapport aux faits et à ses énoncés précédents, il était capable dans la plupart des cas de produire l’apparence d’un raisonnement. Lorsque GPT-4 est sorti, les progrès sur les capacités du système 2 étaient évidents, même s’il est probable que rien n’avait fondamentalement changé dans les principes de conception sous-jacents à part l’augmentation de la puissance de calcul et l’entraînement prolongé ou sur de meilleures et plus nombreuses données. Par ailleurs, plusieurs arguments ont été avancés sur les éléments manquants pour les capacités du système 2, incluant dans mes propres recherches.

Comme je travaillais depuis plus de deux ans sur une nouvelle approche pour entraîner de grands réseaux neuronaux pouvant potentiellement combler l’écart du système 2, j’ai commencé à réaliser que mes précédentes estimations sur le moment où une IA de niveau humain serait atteinte devaient être radicalement révisées. Au lieu de décennies, voire de siècles, je le vois maintenant comme aussi proche que 5 à 20 ans, avec un intervalle de confiance de 90%.

Et si c’était en effet seulement dans quelques années ?

En plus de la question de quand ça arrivera, l’autre facteur est le niveau de compétence des IA futures, un enjeu bien expliqué par Geoff Hinton lors de sa conférence à Cambridge en mai. Ainsi, même si nos systèmes d’IA bénéficiaient uniquement des principes de l’intelligence de niveau humain, nous obtiendrons automatiquement des systèmes d’IA surhumains en raison des avantages du calcul numérique moderne sur le substrat biologique. En effet, des calculs exacts et une bande passante bien plus importante entre les ordinateurs permettent un transfert de connaissances entre modèles bien plus rapide que ce qui est possible pour les humains. On estime par exemple que le langage parlé entre humains peut transmettre 39 bits/seconde. La communication bien plus rapide entre les ordinateurs permet une forme de parallélisme qui rend possible, pour les systèmes d’IA, d’apprendre beaucoup plus rapidement et à partir de davantage de données.

Mes préoccupations ont progressivement augmenté pendant l’hiver et le printemps 2023, et j’ai lentement modifié mes vues sur les conséquences potentielles de mes recherches. J’ai décidé de signer la lettre demandant plus de prudence concernant les systèmes plus puissants que GPT-4. J’ai réalisé que de tels LLM avaient assimilé énormément de connaissances sur la société et les humains, qui pourraient être un jour exploitées par de mauvais acteurs de manière potentiellement catastrophique, notamment pour la démocratie, la sécurité publique et la sécurité nationale. Un élément technique crucial, ici, est que les instructions données à l’IA et le réglage fin de leurs paramètres pourraient transformer un système apparemment inoffensif en un système axé sur une intention malveillante, ainsi qu’abaisser le niveau de compétences techniques nécessaire pour le faire. De plus, une telle transformation pourrait être effectuée à faible coût et avec un minimum de données. On pourrait également transformer à moindre coût un système de dialogue en un agent orienté vers un objectif pouvant agir sur Internet, comme l’a illustré AutoGPT. Cela a mis en évidence la possibilité qu’en quelques années, nous pourrions avoir des résultats catastrophiques rendus possibles par des IA plus puissantes, soit par négligence, par suite d’une intention humaine malveillante, ou en perdant le contrôle de systèmes hautement autonomes.

J’ai commencé à lire davantage sur la sécurité de l’IA et suis arrivé à une conclusion d’une importance cruciale : nous ne savons pas encore comment rendre un agent-IA contrôlable et garantir ainsi la sécurité de l’humanité ! Et pourtant, nous avançons – moi y compris jusqu’à présent – à grands pas vers la construction de tels systèmes.

Il est difficile de digérer de telles réflexions et d’opérer le changement de mentalité qu’elles impliquent. C’est difficile parce qu’accepter les conclusions logiques qui en découlent signifie remettre en question notre propre rôle, la valeur de notre travail, le sentiment de notre propre valeur. La plupart d’entre nous veulent se voir comme fondamentalement bons, avec un but vertueux, contribuant à quelque chose de bénéfique pour la société et notre communauté. Avoir une image positive de soi nous fait nous sentir bien dans notre travail et nous donne la motivation et l’énergie pour avancer. Il est douloureux de faire face à l’idée que nous aurions pu contribuer à quelque chose qui pourrait être très destructeur. La nature humaine nous pousse à écarter ces pensées ou à trouver du réconfort dans des arguments rassurants plutôt que de faire face à l’horreur totale de telles possibilités. Apporter les avantages de l’IA à la table n’est pas suffisant pour compenser si les conséquences négatives possibles incluent des usages catastrophiques du même niveau qu’une guerre nucléaire ou des pandémies, voire un risque existentiel.

J’ai un petit-enfant de 20 mois que j’aime énormément, et il occupe une place très importante dans mes pensées et mes émotions. Bien que l’avenir soit rempli d’incertitudes, et que je ne prétende pas savoir comment tout cela évoluera, je ne peux rationnellement rejeter les possibilités catastrophiques ni ignorer le profond sentiment d’empathie que je ressens pour lui et pour les multitudes d’humains dont les vies pourraient être profondément affectées ou détruites si nous continuons à nier les risques des technologies puissantes. Il est vraiment horrible d’avoir même ces pensées et certains jours, j’aimerais pouvoir simplement les écarter ou redevenir comme avant 2023, lorsque ces pensées n’avaient pas une emprise forte sur mon esprit conscient.

Mon parcours de ces derniers mois m’a rendu curieux quant aux facteurs psychologiques à l’œuvre alors que nous luttons tous avec cette nouvelle réalité et débattons sur les scénarios ou probabilités. Je reconnais que les biais cognitifs jouent probablement toujours un rôle dans ma propre réflexion et prise de décision, comme c’est souvent le cas pour les humains en général, y compris les chercheurs en IA, malgré nos meilleures intentions. Et j’ai un désir sincère de comprendre pourquoi il y a tant de désaccord parmi les chercheurs en IA – qui sont presque tous incroyablement intelligents et dévoués – sur l’ampleur du risque et la meilleure voie à suivre. Comment cela est-il possible ? Et comment trouverons-nous le terrain d’entente à partir duquel avancer ensemble pour faire en sorte que l’IA serve l’avenir de l’humanité?

Alors que nous débattons – en public et en personne (sans oublier les médias sociaux terriblement polarisants) – sur ces questions difficiles, je crois que nous devrions tous garder à l’esprit la possibilité de facteurs psychologiques tels que les biais de confirmation ou d’auto-justification, et prendre garde d’éviter les déclarations trop assurées. Celles et ceux, des deux côtés de ce débat, qui ont pris des positions fermes (moi y compris, bien sûr!) sont encouragés à explorer les processus mentaux et les émotions sous-jacentes à cette certitude excessive face à des questions si troublantes. La curiosité, l’ouverture d’esprit et l’humilité renforceront notre capacité à explorer différents points de vue et à adopter une perspective plus compatissante, plutôt que de polariser la discussion et d’alimenter la frustration ou la colère envers ceux avec lesquels nous sommes en désaccord.

Être capable de changer d’avis face à de nouvelles données ou de nouveaux arguments est essentiel pour le progrès de la science, ainsi que pour orienter la société vers un futur bénéfique. Plus nous sommes curieux et intéressés par nos erreurs, plus nous apprenons, grandissons, évoluons et élargissons notre capacité à impacter positivement les autres et le monde. En tant que chercheurs en IA, nous devons honorer cet engagement à une exploration continue et éviter de nous présenter comme des défenseurs inébranlables d’un unique point de vue. La tendance à s’engager excessivement en faveur d’un point de vue spécifique malgré un degré réel d’incertitude évoque la façon dont, en apprentissage automatique, différents modèles entraînés à coller aux mêmes données peuvent fortement diverger là où l’incertitude épistémique est grande. Être capable d’accepter que nous avons eu tort, pour nous-mêmes et aux yeux des autres, est difficile mais nécessaire pour réaliser des progrès scientifiques et converger vers une voie moralement juste. De manière intéressante, avoir l’humilité d’accepter que nous puissions encore avoir tort correspond à adopter l’approche bayésienne d’agrégation de tous les points de vue, y compris ceux avec lesquels nous sommes en désaccord, tant qu’ils sont cohérents avec les faits et la logique. Exprimer la certitude d’une catastrophe imminente ou ridiculiser les points de vue des autres en les associant à de la science-fiction est, au contraire, incompatible avec cette ouverture d’esprit bayésienne.

Avant que l’énergie nucléaire et la conquête spatiale ne deviennent réalité, elles étaient aussi de la science-fiction. Comme l’a noté Allan Dafoe, les différences actuelles entre les chercheurs en IA rappellent celles entre les physiciens Leo Szilard et Enrico Fermi. Szilard a écrit : «Dès le début [1939], la ligne était tracée […] Fermi pensait que la chose conservatrice était de minimiser [sa possibilité de 10%] que [une réaction en chaîne nucléaire] puisse se produire, [Szilard] pensait que la chose conservatrice était de supposer que cela se produirait et de prendre toutes les précautions nécessaires.»

Malheureusement, pour trancher le débat sur l’IA, nous ne pouvons pas nous appuyer sur des modèles mathématiques de l’évolution probable de la recherche, de la technologie et de la politique au cours de la prochaine décennie pour évaluer l’effet de différentes interventions. Nous n’avons pas d’expérience passée d’interaction avec des machines plus intellectuellement capables que nous et ne pouvons donc obtenir de statistiques sur ce qui est sécuritaire et ce qui ne l’est pas. Cependant, nous ne pouvons pas attendre qu’un dommage irréversible soit fait pour changer de cap. Les chercheurs en IA ont l’habitude d’effectuer facilement de nombreuses expériences, y compris des expériences contrôlées et des évaluations statistiques avant de tirer des conclusions. Ici, nous devons plutôt recourir à une forme de raisonnement et de projection hors distribution, qui se rapproche de la manière dont beaucoup de nos collègues en sciences sociales travaillent. Cela rend plus difficile et plus incertaine l’évaluation des futurs possibles, mais la raison et la compassion peuvent toujours être utilisées pour guider nos conversations et nos actions. En tant que scientifiques, nous devrions éviter de faire des affirmations que nous ne pouvons pas soutenir ; mais nous devrions également agir malgré l’incertitude, en prenant des précautions. Malgré nos différences de points de vue, il est temps, concernant l’IA, de discuter sérieusement de ces questions : et si nous réussissions ? Et si des capacités d’IA surhumaines potentiellement dangereuses étaient développées plus tôt que prévu ? Embrassons ces défis et nos différences, tout en étant conscients de l’humanité de chacun et de nos parcours émotionnels et psychologiques uniques dans cette nouvelle ère de l’IA.

Remerciements. Yoshua Bengio remercie Valérie Pisano, Soren Mindermann, Jean-Pierre Falet, Niki Howe, Nasim Rahaman, Joseph Viviano, Mathieu Bourgey, David Krueger, Eric Elmoznino, Claire Boine, Victor Schmidt, Xu Ji, Anja Surina, Almer van der Sloot, et Dianbo Liu.

Dimensions personnelles et psychologiques des chercheurs en IA face aux risques catastrophiques de l’IA