Press "Enter" to skip to content

Des IA comme chercheurs idéalisés: sécuritaires et utiles?

Récemment, nous avons vu éclore de nombreuses discussions sur les risques de l’IA, à court terme avec les méthodes existantes et à plus long terme avec les progrès que nous pouvons anticiper. J’ai beaucoup insisté sur l’importance d’accélérer la réglementation, tant au niveau national qu’international, ce qui, selon moi, pourrait nous aider à atténuer les problèmes de discrimination, de biais, de fausses nouvelles, de désinformation, etc. D’autres enjeux anticipés, tels que les chocs sur les marchés de l’emploi, nécessitent des changements dans le filet de sécurité sociale et le système éducatif. L’utilisation de l’IA dans l’armée, en particulier dans le cadre d’armes autonomes létales, est une préoccupation majeure depuis de nombreuses années et nécessite une coordination internationale. 

Dans ce billet, j’aimerais toutefois partager mes réflexions sur la question plus controversée des risques à long terme associés aux systèmes d’IA qui n’existent pas encore, où l’on imagine la possibilité que l’IA se comporte d’une manière dangereusement incompatible avec les besoins et les valeurs de l’être humain, voire que nous perdions le contrôle de ces systèmes, qui pourraient alors devenir des menaces pour l’humanité. Un argument clé est que dès que les systèmes d’IA se voient assigner des objectifs, même pour satisfaire nos besoins, ils peuvent créer des sous-objectifs qui sont mal alignés avec ce que nous voulons vraiment et qui pourraient même devenir dangereux pour les humains.

Thèse principale : des IA-chercheurs sécuritaires

Il existe peut-être un moyen de construire des systèmes d’IA immensément utiles qui évitent entièrement le problème de l’alignement de l’IA, que j’appelle des IA-chercheurs et qui seraient comme des chercheurs scientifiques idéalisés qui n’agissent pas de manière autonome dans le monde réel, se concentrant uniquement sur l’élaboration de théories et la réponse à des questions. L’argument est le suivant: si le système d’IA peut nous apporter des avantages sans avoir à agir de manière autonome dans le monde, nous n’avons pas besoin de résoudre le problème de l’alignement de l’IA. 

Cela suggère d’interdire des IAs puissantes et autonomes sauf si on peut prouver leur innocuité. Toutefois, une telle solution ne règlerait pas l’enjeu politique de la coordination des personnes, des organisations et des pays pour qu’ils s’en tiennent à de telles lignes directrices en vue d’une IA sécuritaire et utile. La bonne nouvelle est que les efforts actuels pour introduire une réglementation de l’IA (tels que les projets de loi proposés au Canada et dans l’UE, mais aussi ce qui se passe aux É-U) sont des pas dans la bonne direction.

Le défi de l’alignement des valeurs

Rappelons tout d’abord l’objectif de l’alignement de l’IA et la question des objectifs et des sous-objectifs. L’humanité est déjà confrontée à des problèmes d’alignement : comment s’assurer que les personnes et les organisations (telles que les gouvernements et les entreprises) agissent de manière à s’aligner sur un ensemble de normes (difficile à définir) servant d’indicateur du bien-être général de l’humanité ? Les individus cupides et les entreprises peuvent avoir des intérêts personnels (comme la maximisation du profit) qui peuvent entrer en conflit avec nos intérêts collectifs (comme la préservation d’un environnement propre et sécuritaire et d’une bonne santé collective). 

La politique, les lois, les réglementations et les accords internationaux tentent tous, de manière imparfaite, de résoudre ce problème d’alignement. L’adoption généralisée de normes qui soutiennent les intérêts collectifs est plus facilement imposée dans les démocraties en raison des limites imposées à la concentration du pouvoir par une personne physique ou morale. Elle est en outre facilitée par notre tendance héritée de l’évolution à adopter volontairement les normes en vigueur si nous reconnaissons leur valeur générale ou pour obtenir l’approbation de la société, même si elles vont à l’encontre de nos propres intérêts. 

Toutefois, les machines ne sont pas soumises par défaut à ces contraintes humaines. Que se passerait-il si un agent artificiel avait les capacités cognitives d’un être humain (ou plus) sans la prérogative de l’alignement sur l’intérêt collectif de l’espèce? Sans comprendre et contrôler pleinement un tel agent, pourrions-nous néanmoins le concevoir de manière à nous assurer qu’il adhère à nos normes et à nos lois, qu’il respecte nos besoins et la nature humaine?

Le défi de l’alignement de l’IA et des objectifs instrumentaux

L’une des constructions imaginées les plus anciennes et les plus influentes en ce sens est l’ensemble des lois de la robotique d’Asimov, qui stipulent qu’un robot ne doit pas nuire à un être humain ou à l’humanité (et les histoires d’Asimov sont souvent à propos de l’échec de ces lois). Les méthodes modernes d’apprentissage par renforcement (RL) permettent d’apprendre à un système d’IA, par le biais d’un signal de renforcement positif ou négatif, à éviter de se comporter de manière néfaste, mais il est difficile de prévoir comment de tels systèmes complexes se comporteront dans de nouvelles situations, comme nous l’avons vu avec les grands modèles de langage (LLM). 

Nous pouvons également entraîner des agents RL qui agissent en fonction d’objectifs donnés. Nous pouvons utiliser le langage naturel (avec les LLM modernes) pour énoncer ces objectifs, mais il n’y a aucune garantie qu’ils comprennent ces objectifs de la même manière que nous. Pour atteindre un objectif donné (par exemple, “guérir le cancer”), ces agents peuvent définir des sous-objectifs (par exemple, “perturber la voie moléculaire exploitée par les cellules cancéreuses pour échapper au système immunitaire”) et le domaine du RL hiérarchique est dédié à la manière de découvrir les hiérarchies de sous-objectifs. 

Il peut être difficile de prévoir quels seront ces sous-objectifs à l’avenir, et en fait on s’attend à voir émerger l’objectif d’empêcher que l’IA soit arrêtée (et même que l’IA utilise la tromperie pour cela). Il est donc très difficile de garantir que ces agents d’IA ne choisiront pas des sous-objectifs qui ne correspondent pas aux objectifs humains (nous n’avons par exemple peut-être pas prévu la possibilité que la même voie moléculaire empêche la reproduction humaine et que le traitement du cancer mette ainsi l’espèce en danger, l’IA pouvant interpréter la notion de préjudice d’une manière différente de la nôtre). 

Il s’agit de ce qu’on appelle également le problème des objectifs instrumentaux et je recommande vivement la lecture du livre de Stuart Russell sur le thème général du contrôle des systèmes d’IA : Human Compatible. Russell propose également une solution potentielle qui exigerait du système d’IA qu’il estime son incertitude quant aux préférences humaines et qu’il agisse en conséquence de manière conservatrice (c’est-à-dire qu’il évite d’agir d’une manière qui pourrait nuire à un être humain). La recherche sur l’alignement de l’IA devrait être intensifiée, mais je propose ici une solution qui évite complètement le problème, tout en limitant le type d’IA que nous pourrions concevoir.

Entraîner l’IA-chercheur avec de grands réseaux neuronaux pour l’inférence bayésienne

Je voudrais ici présenter une approche différente de la construction de systèmes d’IA sécuritaires qui éviterait complètement la question de la définition des objectifs et la préoccupation des systèmes d’IA agissant dans le monde (qui pourraient le faire d’une manière imprévue et néfaste). 

Le modèle de cette solution est le chercheur scientifique idéalisé, qui se concentre sur la compréhension de ce qui est observé (donc des données, dans le contexte de l’apprentissage automatique) et des théories qui expliquent ces observations. Il faut garder à l’esprit que pour presque tout ensemble d’observations, il subsistera une certaine incertitude quant aux théories qui les expliquent, un scientifique idéal peut donc envisager de nombreuses théories possibles qui sont compatibles avec les données. 

Une manière mathématiquement propre et rationnelle de gérer cette incertitude s’appelle l’inférence bayésienne. Elle consiste en principe à dresser la liste de toutes les théories possibles et de leurs probabilités postérieures (qui peuvent être théoriquement calculées, compte tenu des données). 

Elle impose également la manière (en principe) de répondre à toute question de manière probabiliste (appelée prédiction postérieure bayésienne) en faisant la moyenne des réponses probabilistes à toute question provenant de toutes ces théories, chacune étant pondérée par la probabilité postérieure de la théorie. 

Cela donne automatiquement plus de poids aux théories les plus simples qui expliquent bien les données (c’est ce qu’on appelle le rasoir d’Occam). Bien que ce principe de prise de décision rationnelle soit connu depuis longtemps, les calculs exacts requis sont beaucoup trop coûteux. Cependant, l’avènement de grands réseaux neuronaux pouvant être entraînés sur un très grand nombre d’exemples permet d’obtenir de très bonnes approximations de ces calculs bayésiens. Voir [1,2,3,4] pour des exemples récents allant dans ce sens. Ces théories peuvent être causales, ce qui signifie qu’elles peuvent se généraliser à de nouveaux environnements plus facilement, en tirant parti des changements distributionnels naturels ou causés par l’humain (qu’on appelle des interventions). Ces grands réseaux neuronaux n’ont pas besoin d’énumérer explicitement toutes les théories possibles : il suffit qu’ils les représentent implicitement au moyen d’un modèle génératif entraîné qui peut échantillonner une théorie à la fois. 

Voir également mon récent billet de blog sur l’apprentissage automatique basé sur un modèle, qui va dans le même sens. De tels réseaux neuronaux peuvent être entraînés à approximer à la fois une distribution postérieure bayésienne sur les théories et à approximer les réponses aux questions (également connue sous le nom d’inférence probabiliste ou de prédiction postérieure bayésienne). 

En augmentant la taille de ces réseaux et en les entraînant plus longtemps, nous avons la garantie qu’ils convergeront vers les réponses optimales bayésiennes. Des questions subsistent quant à la manière de concevoir et d’entraîner ces grands réseaux neuronaux de la manière la plus efficace possible, en s’inspirant éventuellement de la manière dont les cerveaux humains raisonnent, imaginent et planifient au niveau du système 2, un sujet qui a motivé une grande partie de mes recherches au cours de ces dernières années. Cependant, la voie à suivre est assez claire et pourrait à la fois éliminer les problèmes d’hallucination et la difficulté à raisonner en plusieurs étapes des grands modèles de langage actuels et fournir une IA sécuritaire et utile, comme je l’explique ci-dessous.

Les IA-chercheurs et les humains travaillant ensemble

Il serait prudent de limiter l’utilisation de ces systèmes d’IA (a) à la modélisation des observations disponibles et (b) à la réponse à toute question que nous pourrions avoir sur les variables aléatoires associées (avec les probabilités associées à ces réponses). 

Ces systèmes peuvent être entraînés sans référence à des objectifs à atteindre ni la nécessité pour ces systèmes d’agir réellement dans le monde. Les algorithmes d’entraînement de ces systèmes d’IA se concentrent uniquement sur la vérité au sens probabiliste du terme. Ils n’essairaient pas de nous plaire ou d’agir d’une manière qui doit être alignée sur nos besoins. Leurs résultats pourraient être considérés comme ceux de scientifiques idéaux, c’est-à-dire des théories explicatives et des réponses aux questions que ces théories aident à élucider, augmentant ainsi notre propre compréhension scientifique de l’univers. 

La responsabilité de poser les questions pertinentes et d’agir en conséquence et selon la morale resterait entre les mains des humains. Ces questions pourraient inclure des suggestions d’expériences pour accélérer la découverte scientifique, mais les humains resteraient maîtres de décider comment agir avec ces informations — on l’espère de façon morale et légale, et le système d’IA lui-même n’aurait pas la recherche de connaissances comme objectif explicite.

Ces systèmes ne pourraient pas laver notre vaisselle ou construire nos gadgets eux-mêmes, mais pourraient néanmoins être immensément utiles à l’humanité : ils pourraient nous aider à comprendre comment les maladies fonctionnent et quelles thérapies peuvent les traiter ; nous aider à mieux comprendre comment le climat change et à identifier les matériaux qui pourraient stocker l’énergie ou capter efficacement le dioxyde de carbone de l’atmosphère ; nous aider à mieux comprendre comment les êtres humains apprennent et comment l’éducation pourrait être améliorée et démocratisée. 

L’un des facteurs clés du progrès humain au cours des derniers siècles a été la connaissance accumulée grâce au processus scientifique et les méthodologies d’ingénierie de résolution de problèmes dérivées de cette connaissance ou stimulant sa découverte. La voie proposée pour les IA-chercheurs pourrait nous permettre de réaliser des avancées majeures dans les domaines de la science et de l’ingénierie, tout en laissant à l’humain le soin d’agir, de fixer les objectifs et d’assumer les responsabilités morales.

Le défi politique

La simple existence d’un ensemble de lignes directrices visant à construire des systèmes d’IA sécuritaires et utiles ne garantirait toutefois pas que des êtres humains ou des organisations mal intentionnés ou inconscients des conséquences ne puissent en construire qui soient dangereux, en particulier si ces systèmes pouvaient leur apporter des avantages supplémentaires (par exemple, sur le champ de bataille ou pour gagner des parts de marché). 

Ce défi semble essentiellement politique et juridique et nécessiterait un cadre réglementaire solide mis en place au niveau national et international, afin de minimiser ces risques. Nous avons assisté à des accords internationaux dans des domaines tels que l’énergie nucléaire ou le clonage humain qui peuvent servir d’exemples, bien que nous puissions être confrontés à de nouveaux défis en raison de la nature des technologies numériques. 

Cela nécessiterait probablement un niveau de coordination supérieur à celui auquel nous sommes habitués dans la politique internationale actuelle et je me demande si notre ordre mondial actuel est bien adapté à cela. La nécessité de se protéger contre les risques à court terme de l’IA devrait déboucher sur un cadre de gouvernance qui constitue un bon premier pas vers la protection contre les risques à long terme de perte de contrôle de l’IA. 

Accroître la sensibilisation générale aux risques de l’IA, imposer davantage de transparence et de documentation, exiger des organisations qu’elles fassent de leur mieux pour évaluer et éviter les risques potentiels avant de déployer des systèmes d’IA, introduire des organismes de surveillance indépendants pour contrôler les nouveaux développements de l’IA, etc. contribueraient non seulement à atténuer les risques à court terme, mais aussi à plus long terme.

[1] Tristan Deleu, António Góis, Chris Emezue, Mansi Rankawat, Simon Lacoste-Julien, Stefan Bauer, Yoshua Bengio, “Bayesian Structure Learning with Generative Flow Networks“, UAI’2022, arXiv:2202.13903, Février 2022.

[2] Nan Rosemary Ke, Silvia Chiappa, Jane Wang, Anirudh Goyal, Jorg Bornschein, Melanie Rey, Theophane Weber, Matthew Botvinic, Michael Mozer, Danilo Jimenez Rezende, “Learning to Induce Causal Structure“,ICLR 2023, arXiv:2204.04875, Avril 2022.

[3] Noah Hollmann, Samuel Müller, Katharina Eggensperger, Frank Hutter, “TabPFN: A Transformer That Solves Small Tabular Classification Problems in a Second“, ICLR 2023, arXiv:2207.01848, Juillet 2022.


[4] Edward Hu, Nikolay Malkin, Moksh Jain, Katie Everett, Alexandros Graikos, Yoshua Bengio, “GFlowNet-EM for learning compositional latent variable models“, arXiv:2302.06576, Février 2023.