Press "Enter" to skip to content

Des IA comme chercheurs idéalisés: sécuritaires et utiles?

Des IA comme chercheurs idéalisés : sécuritaires et utiles?

Récemment, nous avons vu éclore de nombreuses discussions sur les risques de l’IA, à court terme avec les méthodes existantes et à plus long terme avec les progrès que nous pouvons anticiper. J’ai beaucoup insisté sur l’importance d’accélérer la réglementation, tant au niveau national qu’international, ce qui, selon moi, pourrait nous aider à atténuer les problèmes de discrimination, de biais, de fausses nouvelles, de désinformation, etc. D’autres enjeux anticipés, tels que les chocs sur les marchés de l’emploi, nécessitent des changements dans le filet de sécurité sociale et le système éducatif. L’utilisation de l’IA dans l’armée, en particulier dans le cadre d’armes autonomes létales, est une préoccupation majeure depuis de nombreuses années et nécessite une coordination internationale. 

Dans ce billet, j’aimerais toutefois partager mes réflexions sur la question plus controversée des risques à long terme associés aux systèmes d’IA qui n’existent pas encore, où l’on imagine la possibilité que l’IA se comporte d’une manière dangereusement incompatible avec les droits humains, voire que nous perdions le contrôle de ces systèmes, qui pourraient alors devenir des menaces pour l’humanité. L’argument clé est le suivant: dès que les systèmes d’IA pourront planifier et agir selon des objectifs donnés, ceux-ci pourraient être utilisés à mauvais escient entre de mauvaises mains, ou pourraient inclure ou aboutir indirectement à un objectif d’autoconservation. Si une IA a comme objectif principal de se préserver, comme presque chaque entité vivante, ses intérêts peuvent entrer en conflit avec les nôtres. Par exemple, si elle considère que certains humains veulent l’arrêter, elle pourrait essayer d’éviter cela en nous arrêtant ou en trouvant un moyen de nous contrôler, ce qui, dans les deux cas, nuirait à l’humanité.

Thèse principale : des IA-chercheurs sécuritaires

En résumé, il existe peut-être un moyen de construire des systèmes d’IA immensément utiles qui évitent entièrement le problème de l’alignement de l’IA, que j’appelle des IA-chercheurs et qui seraient comme des scientifiques idéalisés qui n’agissent pas de manière autonome dans le monde réel et se concentrent uniquement sur l’élaboration de théories. L’argument est le suivant : si le système d’IA peut nous apporter des avantages sans avoir à agir de manière autonome dans le monde, nous n’avons pas besoin de résoudre le problème de l’alignement de l’IA pour y aboutir.

Cela suggère d’interdire des IA puissantes et autonomes pouvant agir dans le monde (c.-à-d., des IA “exécutives” ou “expérimentales” plutôt que “purement scientifiques”) sauf si nous pouvons prouver leur innocuité. Une autre solution, telle que développée plus bas, est d’utiliser les IA-chercheurs pour rendre les systèmes d’IA sécuritaires en prédisant la probabilité de préjudices découlant d’une action.

Toutefois, une telle solution ne règlerait pas l’enjeu politique de la coordination des personnes, des organisations et des pays pour qu’ils s’en tiennent à de telles lignes directrices favorisant des IA sécuritaires et utiles. En ce sens, les efforts actuels pour mettre en place une réglementation de l’IA (tels que les projets de loi proposés au Canada et dans l’UE, mais aussi les initiatives aux États-Unis) sont des pas dans la bonne direction.

Le défi de l’alignement des valeurs

Rappelons tout d’abord l’objectif de l’alignement de l’IA et la question des objectifs et des sous-objectifs. L’humanité est déjà confrontée à des problèmes d’alignement : comment s’assurer que les personnes et les organisations (telles que les gouvernements et les entreprises) agissent de manière à s’aligner sur un ensemble de normes servant d’indicateur du bien-être général de l’humanité (difficile à définir)? Les individus cupides et les entreprises peuvent avoir des intérêts personnels (comme la maximisation du profit) pouvant entrer en conflit avec nos intérêts collectifs (comme la préservation d’un environnement propre et sécuritaire et d’une bonne santé collective). 

La politique, les lois, les réglementations et les accords internationaux tentent tous, de manière imparfaite, de résoudre ce problème d’alignement. L’adoption généralisée de normes soutenant les intérêts collectifs est plus facilement imposée dans les démocraties, dans une certaine mesure, en raison notamment des limites imposées à la concentration du pouvoir par une personne ou une entreprise et évitant ainsi que l’intérêt personnel d’un individu ne produise un préjudice collectif majeur. Elle est en outre facilitée par notre tendance héritée de l’évolution à l’empathie et à l’adoption volontaire des normes en vigueur si nous reconnaissons leur valeur générale ou pour obtenir l’approbation de la société, même si elles vont à l’encontre de nos propres intérêts.

Cependant, les machines ne sont pas sujettes par défaut à ces contraintes humaines et à cette programmation innée. Que se passerait-il si un agent artificiel avait les capacités cognitives suffisantes pour causer des préjudices majeurs selon certains objectifs, mais manquait des restreintes innées et sociales limitant les dommages que les humains peuvent causer? Que se passerait-il si un intérêt humain ou d’autoconservation rendait cette IA malveillante? Pouvons-nous construire des IA incapables d’avoir de tels objectifs ni les capacités pour les atteindre?

Le défi de l’alignement de l’IA et des objectifs instrumentaux

L’une des constructions imaginées les plus anciennes et les plus influentes en ce sens est l’ensemble des lois de la robotique d’Asimov, qui stipulent qu’un robot ne doit pas nuire à un être humain ou à l’humanité (et les histoires d’Asimov sont souvent à propos de l’échec de ces lois). Les méthodes modernes d’apprentissage par renforcement (RL) permettent d’apprendre à un système d’IA, par le biais d’un signal de récompense positif ou négatif, à éviter de se comporter de manière néfaste, mais il est difficile de prévoir comment de tels systèmes complexes se comporteront dans de nouvelles situations, comme nous l’avons vu avec les grands modèles de langage (LLMs) comme ChatGPT.

Nous pouvons également entraîner des agents RL agissants en fonction d’objectifs donnés. Nous pouvons utiliser le langage naturel (avec les LLMs modernes) pour énoncer ces objectifs, mais il n’y a aucune garantie qu’ils comprennent ces objectifs de la même manière que nous. Pour atteindre un objectif donné (par exemple, “guérir le cancer”), ces agents peuvent définir des sous-objectifs (par exemple, “perturber la voie moléculaire exploitée par les cellules cancéreuses pour échapper au système immunitaire”) et le domaine du RL hiérarchique est dédié à la manière de découvrir les hiérarchies de sous-objectifs. Il peut être difficile de prévoir quels seront ces sous-objectifs à l’avenir, et en réalité, nous pouvons nous attendre à voir émerger l’objectif pour l’IA d’éviter d’être arrêtée (et même d’utiliser la tromperie pour cela).

Il est donc difficile de garantir que ces agents d’IA ne choisiront pas des sous-objectifs ne correspondant pas aux objectifs humains. Il s’agit de ce qu’on appelle également le problème des objectifs instrumentaux et je recommande vivement la lecture du livre de Stuart Russell sur le thème général du contrôle des systèmes d’IA : Human Compatible. Russell propose également une solution potentielle qui exigerait du système d’IA qu’il estime son incertitude quant aux préférences humaines et qu’il agisse en conséquence de manière conservatrice (c’est-à-dire qu’il évite d’agir d’une manière qui pourrait nuire à un être humain). En outre, des travaux récents montrent qu’avec suffisamment de puissance de calcul et d’intellect, une IA entraînée par RL finirait par trouver un moyen de pirater ses propres signaux de récompense (par exemple, en piratant les ordinateurs par lesquels les récompenses sont fournies). Une telle IA ne se soucierait plus des retours humains et tenterait alors d’empêcher les humains de déjouer ce piratage de récompense. Un autre problème plus immédiat est que nous ne savons pas comment programmer et entraîner une IA de sorte qu’elle ne puisse ensuite être utilisée par des humains mal intentionnés pour causer des préjudices, par exemple en générant de la désinformation ou en instruisant les humains sur la façon d’élaborer des armes biologiques ou des cyberattaques. La recherche sur l’alignement de l’IA devrait être intensifiée, mais je propose ici une solution qui évite complètement le problème, tout en limitant le type d’IA que nous pourrions concevoir à celles proposant simplement des théories scientifiques, mais n’agissant pas dans le monde réel et n’ayant pas d’objectifs. La même approche peut aussi nous fournir des données de sécurité quantitatives si nous avons vraiment besoin d’une IA pouvant agir dans le monde.

Entraîner l’IA-chercheur avec de grands réseaux neuronaux pour l’inférence bayésienne

Je voudrais d’abord présenter une approche différente de la construction de systèmes d’IA sécuritaires qui éviterait complètement la question de la définition des objectifs et les enjeux liés aux systèmes d’IA agissant dans le monde (qui pourraient le faire d’une manière imprévue et néfaste).

Le modèle de cette solution est le chercheur scientifique idéalisé, qui se concentre sur la compréhension de ce qui est observé (donc des données, dans le contexte de l’apprentissage automatique) et des théories qui expliquent ces observations. Il faut garder à l’esprit que pour presque tout ensemble d’observations, il subsistera une certaine incertitude quant aux théories qui les expliquent, un chercheur scientifique idéal peut donc envisager de nombreuses théories possibles étant compatibles avec les données. 

Une manière mathématiquement propre et rationnelle de gérer cette incertitude s’appelle l’inférence bayésienne. Elle consiste à dresser la liste de toutes les théories possibles et de leurs probabilités postérieures (qui peuvent être théoriquement calculées, compte tenu des données). Ci-dessous, nous pensons conceptuellement à ne garder que les théories qui ont une probabilité significative selon le postérieur, c’est-à-dire celles qui sont compatibles avec les données et plus simples à exprimer.

Cela donne automatiquement plus de poids aux théories plus simples qui expliquent bien les données (connu sous le nom de rasoir d’Occam). Bien que ce principe de prise de décision rationnelle soit connu depuis longtemps, les calculs exacts requis sont beaucoup trop coûteux. Cependant, l’avènement de grands réseaux neuronaux pouvant être entraînés sur un très grand nombre d’exemples permet d’obtenir de très bonnes approximations de ces calculs bayésiens. Voir [1,2,3,4] pour des exemples récents allant dans cette direction. Ces théories peuvent être causales, ce qui signifie qu’elles peuvent se généraliser à de nouveaux environnements plus facilement, en tirant parti des changements distributionnels naturels ou causés par l’humain (qu’on appelle des expériences ou interventions). Ces grands réseaux neuronaux n’ont pas besoin de lister explicitement toutes les théories possibles : il suffit qu’ils les représentent implicitement à travers un modèle génératif entraîné qui peut échantillonner une théorie à la fois.

Les calculs bayésiens dictent également comment (en principe) répondre à toute question de manière probabiliste (appelée prédiction postérieure bayésienne) en moyennant la réponse probabiliste à toute question de toutes ces théories, chacune pondérée par la probabilité postérieure de la théorie.

Voir également mon récent billet de blogue sur l’apprentissage automatique basé sur un modèle, qui va dans le même sens. De tels réseaux neuronaux peuvent être entraînés à approximer à la fois une distribution postérieure bayésienne sur les théories et à approximer les réponses aux questions (également connue sous le nom d’inférence probabiliste ou de prédiction postérieure bayésienne). 

Ce qui est intéressant, c’est qu’à mesure que nous rendons ces réseaux plus grands et les entraînons plus longtemps, nous avons la garantie qu’ils convergeront vers les réponses optimales bayésiennes. Des questions subsistent quant à la manière de concevoir et d’entraîner ces grands réseaux neuronaux de la manière la plus efficace possible, en s’inspirant éventuellement de la manière dont les cerveaux humains raisonnent, imaginent et planifient au niveau du système 2, un sujet qui a motivé une grande partie de mes recherches au cours de ces dernières années. Cependant, la voie à suivre est assez claire et pourrait à la fois éliminer les problèmes d’hallucination et la difficulté à raisonner en plusieurs étapes des grands modèles de langage actuels et fournir une IA sécuritaire et utile, comme je l’explique ci-dessous.

Les IA-chercheurs et les humains travaillant ensemble

Donnons un nom aux deux problèmes d’inférence bayésienne décrits ci-dessus. Nous appellerons IA-chercheur le réseau neuronal générant des théories selon une distribution qui approxime le vrai postérieur bayésien sur les théories, P(théorie | données). Notez qu’une théorie comprendra généralement des explications (connues sous le nom de variables latentes en apprentissage automatique probabiliste) pour chacune des observations dans l’ensemble de données. Un autre réseau neuronal peut être entraîné en utilisant uniquement l’IA-chercheur comme enseignant afin d’apprendre à répondre à des questions selon un contexte. Nous appellerons ce réseau neuronal l‘IA-agent,car les réponses à ces questions peuvent être utilisées pour agir dans le monde et planifier pour atteindre des objectifs, par exemple: si la question est « comment puis-je atteindre <un objectif> ? », l’IA-agent estime la prédiction postérieure bayésienne, P(réponse | question, données). L’IA-chercheur encapsule un modèle du monde bayésien, qui pourrait inclure une compréhension de choses comme le préjudice tel qu’interprété par un humain, ainsi que des normes sociales et des lois d’une société spécifique. L’IA-agent peut être utilisé comme un oracle ou comme un agent conditionné par un objectif pour agir dans le monde, si la « question » comprend non seulement un objectif,mais aussi des mesures sensorielles devant conditionner la prochaine action afin d’atteindre l’objectif.

Le type d’IA le plus sûr est l’IA-chercheur. Il n’a pas d’objectif et il ne planifie pas. Il peut avoir des théories sur les raisons pour lesquelles les agents dans le monde agissent de manière spécifique, incluant à la fois leurs intentions et leur vision du monde, mais il n’a pas les capacités pour répondre directement aux questions comme le fait l’IA-agent. Une façon d’envisager l’IA-chercheur est de la comparer à un scientifique humain dans le domaine de la physique pure, qui ne fait jamais d’expérience. Une telle IA lit beaucoup, en particulier toute la littérature scientifique et toute autre sorte de données observationnelles, y compris sur les expériences réalisées par les humains dans le monde. À partir de cela, il déduit des théories potentielles cohérentes avec toutes ces observations et résultats expérimentaux. Les théories qu’elle génère pourraient être séparées en sections plus digestes, comparables à des articles scientifiques, et nous pourrions être en mesure de le contraindre à exprimer ses théories dans un langage compréhensible par les humains (qui inclut le langage naturel, le jargon scientifique, les mathématiques et les langages de programmation). De tels articles pourraient être extrêmement utiles s’ils permettent de repousser les limites de la connaissance scientifique, en particulier dans des directions qui nous importent, comme la santé, le changement climatique ou les ODD des Nations Unies.

Garanties de sécurité quantitatives

Contrairement aux méthodes d’élaboration de ponts, de médicaments ou de centrales nucléaires, les méthodes actuelles d’entraînement de systèmes d’IA de pointe – les systèmes d’IA existants les plus puissants – ne nous permettent pas d’obtenir des garanties de sécurité quantitatives de quelque nature que ce soit. À mesure que les IA deviennent plus compétentes, et donc plus dangereuses entre de mauvaises mains ou si nous perdons le contrôle sur elles, il serait beaucoup plus sécuritaire pour la société et l’humanité si nous pouvions éviter de construire une IA très dangereuse. Les méthodes actuelles d’évaluation de la sécurité sont insatisfaisantes, car elles effectuent uniquement des vérifications ponctuelles : elles essaient un nombre fini de questions posées à l’IA et vérifient si les réponses pourraient causer des préjudices. Cela pose deux problèmes : premièrement, qu’en est-il des autres contextes et questions pour lesquels l’IA n’a pas été testée? Ensuite, comment évaluons-nous que la réponse de l’IA pourrait causer des préjudices? Pour cela, nous pouvons demander aux humains, mais cela limite grandement le nombre de questions que nous pouvons poser. Quant à la première question, nous voudrions idéalement vérifier si une réponse pourrait causer du tort avant que la sortie du système d’IA ne soit réellement exécutée. Cela éviterait le problème de la vérification ponctuelle, car dans le contexte donné et pour la question donnée, on pourrait vérifier si l’action proposée pourrait produire des résultats dommageables. Mais cela ne peut pas fonctionner en pratique si cette vérification doit être faite par un humain, nous devons donc automatiser ce processus. Comment?

Si nous avions une IA très puissante, nous pourrions penser qu’elle serait capable d’anticiper le préjudice potentiel de l’exécution d’une action particulière (sortie). Cependant, cela ne serait pas sécuritaire pour la raison suivante : en général, étant donné n’importe quel ensemble de données, même de taille infinie, il existe de nombreuses théories causales compatibles avec celui-ci (à moins que cet ensemble ne contienne également les résultats d’un nombre infini d’expériences sur toutes les variables causales possibles, ce qui est impossible; par exemple, nous ne pouvons pas déplacer le soleil nous-mêmes). Une seule de ces théories est correcte, et différentes théories pourraient fournir des réponses très différentes à une question particulière. La façon dont nous entraînons actuellement les systèmes d’IA de pointe combine les objectifs de maximum de vraisemblance et d’apprentissage par renforcement et les réseaux neuronaux résultants pourraient implicitement s’appuyer sur une seule théorie parmi celles qui sont compatibles avec les données, donc ils ne sont pas sécuritaires. Ce qui est nécessaire pour prendre des décisions sécuritaires est l’humilité épistémique : l’IA doit connaître les limites de sa propre connaissance, afin qu’en cas de doute, elle évite des actions pouvant causer un préjudice majeur selon certaines des théories du postérieur bayésien sur les théories. Si nous étions en mesure d’estimer la prédiction postérieure bayésienne répondant à des questions sur les préjudices majeurs pouvant résulter de toute action donnée dans tout contexte donné, nous pourrions l’utiliser pour rejeter des actions pouvant potentiellement être nocives selon le postérieur, par exemple, si la probabilité de préjudice majeur est supérieure à un seuil minuscule, mais choisi par l’homme. Ce seuil nous donnerait une garantie probabiliste quantitative qu’aucun préjudice majeur ne pourrait survenir suite à cette action particulière.

Le défi politique

Cependant, la simple existence d’un ensemble de lignes directrices visant à construire des systèmes d’IA sécuritaires et utiles ne garantirait toutefois pas que des êtres humains mal intentionnés ou inconscients des conséquences ne puissent en construire qui soient dangereux, en particulier si ces systèmes pouvaient leur apporter des avantages supplémentaires (par exemple, sur le champ de bataille ou pour gagner des parts de marché), ou si ces personnes souhaitaient voir l’humanité remplacée par des IA surhumaines (et certaines personnes ont effectivement ce désir).

Ce défi semble principalement politique et juridique et nécessiterait un cadre réglementaire solide instauré au niveau national et international. Nous avons assisté à des accords internationaux dans des domaines tels que l’énergie nucléaire ou le clonage humain qui peuvent servir d’exemples, bien que nous puissions être confrontés à de nouveaux défis en raison de la nature des technologies numériques. 

Cela nécessiterait probablement un niveau de coordination supérieur à celui auquel nous sommes habitués dans la politique internationale actuelle et je me demande si notre ordre mondial actuel est bien adapté à cela. La nécessité de se protéger contre les risques à court terme de l’IA devrait déboucher sur un cadre de gouvernance qui constitue un bon premier pas vers la protection contre les risques à long terme de perte de contrôle de l’IA. 

Accroître la sensibilisation générale aux risques de l’IA, imposer davantage de transparence et de documentation, exiger des organisations qu’elles fassent de leur mieux pour évaluer et éviter les risques avant de déployer des systèmes d’IA, introduire des organismes de surveillance indépendants pour contrôler les nouveaux développements de l’IA, etc., contribueraient non seulement à atténuer les risques à court terme, mais aussi à plus long terme.

[1] Tristan Deleu, António Góis, Chris Emezue, Mansi Rankawat, Simon Lacoste-Julien, Stefan Bauer, Yoshua Bengio, “Bayesian Structure Learning with Generative Flow Networks“, UAI’2022, arXiv:2202.13903, Février 2022.

[2] Nan Rosemary Ke, Silvia Chiappa, Jane Wang, Anirudh Goyal, Jorg Bornschein, Melanie Rey, Theophane Weber, Matthew Botvinic, Michael Mozer, Danilo Jimenez Rezende, “Learning to Induce Causal Structure“,ICLR 2023, arXiv:2204.04875, Avril 2022.

[3] Noah Hollmann, Samuel Müller, Katharina Eggensperger, Frank Hutter, “TabPFN: A Transformer That Solves Small Tabular Classification Problems in a Second“, ICLR 2023, arXiv:2207.01848, Juillet 2022.


[4] Edward Hu, Nikolay Malkin, Moksh Jain, Katie Everett, Alexandros Graikos, Yoshua Bengio, “GFlowNet-EM for learning compositional latent variable models“, arXiv:2302.06576, Février 2023.