Press "Enter" to skip to content

Comment des IA nocives pourraient apparaître

La montée de puissants systèmes de dialogue d’IA au cours des derniers mois a déclenché des débats sur les risques de tous genres liés à l’IA, ce qui, espérons-le, entraînera une accélération des cadres de gouvernance et de réglementation. Bien qu’il existe un consensus sur la nécessité de réglementer l’IA pour protéger le public contre la désinformation et les préjudices causés par la discrimination et les préjugés, l’on remarque de profonds désaccords entre les scientifiques de l’IA concernant le potentiel de perte de contrôle dangereuse des systèmes d’IA puissants, un cas majeur de « risque existentiel de l’IA » qui peut survenir lorsqu’un système d’IA peut agir de façon autonome dans le monde (sans l’intervention d’humains pour vérifier que les actions en question sont acceptables) d’une manière qui pourrait être catastrophiquement nuisible. Certains considèrent ces risques comme une distraction par rapport aux risques et aux préjudices concrets qui apparaissent déjà ou qui se profilent à l’horizon. En effet, il y a beaucoup d’incertitude et de manque de clarté quant à la façon dont ces catastrophes pourraient se produire. Dans ce billet de blogue, nous présentons tout d’abord un ensemble de définitions formelles, d’hypothèses et de scénarios qui en découlent sur les systèmes d’IA qui pourraient nuire de manière catastrophique à l’humanité. Nous discutons ensuite des conditions possibles dans lesquelles cela pourrait survenir, dans l’optique de nous aider à imaginer plus concrètement ce qui pourrait se produire, et des politiques mondiales qui pourraient viser à réduire ces risques.

Définition 1 : Une IA potentiellement malveillante est un système d’IA autonome qui pourrait se comporter d’une manière qui nuirait catastrophiquement aux humains, mettant potentiellement en danger nos sociétés et même notre espèce ou la biosphère.

Sommaire

Bien que de tels systèmes d’IA très dangereux parce qu’on pourrait en perdre le contrôle n’existent pas à l’heure actuelle, les progrès récents dans les capacités de l’IA générative, comme les grands modèles de langage (Large Language Models, LLM), ont soulevé des inquiétudes : les cerveaux humains sont des machines biologiques, et nous avons fait de grands progrès dans la compréhension et la démonstration de principes qui peuvent donner lieu à plusieurs aspects de l’intelligence humaine, comme l’acquisition d’un savoir intuitif à partir d’exemples. Même si je crois également que nous pourrions concevoir des systèmes d’IA qui sont utiles et sécuritaires, des directives précises devraient être respectées, par exemple en limitant leur pouvoir d’action. D’autre part, les récentes avancées suggèrent que les IA potentiellement malveillantes pourraient être créées dans un avenir qui n’est peut-être pas si loin que ça. Des IA pourraient être malveillantes si elles cherchent à atteindre des objectifs, dans la mesure où ces objectifs ou leurs sous-objectifs pourraient mener à des préjudices pour l’humanité. Les LLM actuels ont peu ou pas de pouvoir d’action, mais ils pourraient être transformés en systèmes d’IA axés sur les objectifs, comme c’est le cas avec Auto-GPT. Une meilleure compréhension de la façon dont les IA malveillantes pourraient apparaître nous permettrait d’éviter de minimiser les risques de  catastrophes, avec des avancées à la fois au niveau technique (dans la conception des systèmes d’IA) et au niveau des politiques (pour minimiser les chances que les humains engendrent des IA potentiellement malveillantes). À cette fin, nous présentons différents scénarios et différentes hypothèses qui pourraient donner lieu à des IA potentiellement malveillantes. Le scénario le plus simple à comprendre est le suivant : si une formule pour obtenir une IA malveillante est découverte et généralement accessible, alors un ou plusieurs humains génocidaires pourraient l’utiliser pour arriver à leurs fins. Il s’agit d’un cas de figure très concret et dangereux, mais la possibilité de concevoir involontairement des IA potentiellement malveillantes amènent d’autres scénarios dangereux, en raison du problème de l’alignement de l’IA (entre les véritables intentions des humains et la compréhension et le comportement de l’IA) et des pressions concurrentielles présentes dans notre société qui favoriseraient des systèmes d’IA puissants et autonomes. Réduire tous ces risques nécessitera une recherche beaucoup plus poussée, autant en IA que dans la conception d’une société mondiale sûre pour l’humanité. Il peut également s’agir d’une occasion de créer une société bien pire ou bien meilleure que celle dans laquelle nous vivons.

Hypothèse 1 : Une intelligence au niveau humain serait possible parce que le cerveau est une machine biologique.

L’hypothèse 1 fait l’objet d’un consensus auprès de la communauté scientifique. Elle découle du consensus parmi les biologistes selon lequel le cerveau humain est une machine complexe. Si nous pouvions comprendre les principes qui rendent notre propre intelligence possible (et nous avons déjà beaucoup d’indices sur le sujet), nous devrions par le fait même être en mesure de développer des systèmes d’IA ayant le même niveau d’intelligence que les humains, voire un niveau supérieur. Rejeter l’hypothèse 1 exigerait soit la présence d’un élément surnaturel derrière notre intelligence, soit le rejet du fonctionnalisme, l’hypothèse selon laquelle notre intelligence, et même notre conscience, peuvent se résumer à des relations causales et à des calculs qui, à un certain niveau, sont indépendants du substrat matériel, l’hypothèse de base derrière l’informatique et sa notion de machines universelles de Turing.

Hypothèse 2 : Un ordinateur ayant des capacités d’apprentissage équivalentes à celles de l’humain surpasserait généralement l’intelligence humaine en raison d’avantages technologiques supplémentaires.

Si l’hypothèse 1 est correcte, c’est-à-dire que nous comprenons les principes qui peuvent donner lieu à des capacités d’apprentissage équivalentes à celles de l’humain, alors la technologie informatique serait susceptible de conférer une supériorité cognitive générale aux systèmes d’IA par rapport à l’intelligence humaine, qui est appelée « superintelligence ». Cette dernière permettrait aux systèmes d’IA d’effectuer des tâches que les humains ne peuvent pas effectuer (ou pas au même niveau de compétence ni à la même vitesse) pour au moins les raisons suivantes :

  • Un système d’IA reposant sur un ordinateur peut potentiellement se répliquer sur un nombre arbitrairement élevé d’ordinateurs auxquels il a accès et, grâce aux systèmes de communication à bande passante large et aux calculs et au stockage numériques, il peut bénéficier de l’expérience acquise de tous ses clones et la regrouper. Cela accélérerait la vitesse à laquelle les systèmes d’IA pourraient devenir plus intelligents (acquérir une plus grande compréhension et de plus amples compétences) par rapport aux humains. La recherche sur l’apprentissage fédéré [1] et l’entraînement distribué des réseaux profonds [2] démontre que cela fonctionne (et est en fait utilisé pour aider à entraîner de très grands réseaux neuronaux sur un matériel de traitement parallèle).
  • Grâce à la grande capacité de leur mémoire, des calculs informatiques et à leur grande bande passante, les systèmes d’IA peuvent déjà lire tout le contenu de l’Internet assez rapidement; un exploit impossible à réaliser par un être humain. Cela explique déjà certaines des capacités surprenantes des LLM de pointe et est en partie possible grâce aux capacités informatiques décentralisées abordées dans l’argumentaire ci-dessus. Bien que la capacité d’un cerveau humain soit énorme, ses canaux d’entrée et et surtout de sortie sont limités en bande passante par rapport aux ordinateurs actuels, limitant ainsi la quantité totale d’informations qu’un seul humain peut assimiler et communiquer.

Notez que les cerveaux humains ont également des capacités conférées par l’évolution que les systèmes d’IA actuels n’ont pas, sous la forme de biais inductifs (astuces que l’évolution a découvertes, par exemple dans le type d’architecture neuronale utilisée dans notre cerveau ou nos mécanismes d’apprentissage neuronaux). Certaines recherches en vigueur sur l’IA [3] visent précisément à concevoir sur support informatique des biais inductifs que le cerveau humain peut exploiter, mais qui ne sont pas encore exploités dans l’apprentissage automatique de pointe.

Définition 2 : Une entité intelligente et autonome axée sur l’atteinte d’objectifs établit ses propres objectifs, tente de les atteindre (probablement en tant que sous-objectifs d’objectifs fournis par l’humain) et peut agir en conséquence.

Notez que l’autonomie pourrait découler des objectifs et des récompenses fixés par les humains, car le système d’IA doit trouver le moyen d’atteindre ces objectifs et d’obtenir ces récompenses, ce qui équivaut à former ses propres sous-objectifs. Si l’objectif principal d’une entité est de survivre et de se reproduire (comme c’est le cas de nos gènes dans le processus d’évolution), alors cette entité est entièrement autonome, ce qui constitue le scénario le plus dangereux. Notez également qu’afin de maximiser les chances qu’une entité a d’atteindre un grand nombre de ses objectifs, la capacité de comprendre et de contrôler son environnement est un sous-objectif (ou un objectif instrumental) qui émerge naturellement et qui pourrait également être dangereux pour d’autres entités. Par une « IA superintelligente », nous entendons une IA qui surpasse tous les humains en matière d’intelligence dans la plupart des capacités cognitives, voire dans toutes.

Scénario 1 : Selon les hypothèses 1 et 2, une IA superintelligente et autonome axée sur l’atteinte d’objectifs pourrait être créée.

Argument : Nous savons déjà comment entraîner les systèmes d’IA axés sur l’atteinte d’objectifs à un certain niveau de performance (en utilisant des méthodes d’apprentissage par renforcement). Si ces systèmes bénéficient également de la superintelligence conformément aux hypothèses 1 et 2 combinées, alors le scénario 1 s’ensuit. Notez qu’il est probable que les objectifs puissent être précisés par l’entremise du langage naturel, comme les messages-guides du LLM, ce qui permet à presque tout le monde de dicter facilement un objectif malfaisant à un système d’IA qui comprend le langage, même de façon imparfaite. 

Scénario 2 : Une IA superintelligente qui est autonome et axée sur l’atteinte d’objectifs serait une IA potentiellement malveillante si ses objectifs n’incluaient pas strictement le bien-être de l’humanité et de la biosphère, c’est-à-dire s’ils n’étaient pas suffisamment alignés sur les droits et les valeurs de l’humain pour agir de manière à éviter de nuire à l’humanité.

Argument : Ce scénario est essentiellement une conséquence des définitions 1 et 2 : si un système d’IA est plus intelligent que tous les humains (y compris en matière d’intelligence émotionnelle, puisque la compréhension des émotions humaines est essentielle pour influencer ou même contrôler les humains, ce que les humains eux-mêmes arrivent déjà à bien faire) et s’il a des objectifs qui ne garantissent pas qu’il agira de manière à respecter les besoins et les valeurs de l’humain, alors il pourrait se comporter de manière catastrophiquement nuisible (ce qui est l’essence même de l’IA potentiellement malveillante). Cette hypothèse ne dit pas si l’IA ferait du mal aux humains, mais si ces derniers entrent en concurrence avec elle pour certaines ressources ou certains pouvoirs ou s’ils deviennent une ressource ou un obstacle pour atteindre ses objectifs, alors l’humanité risquerait de subir des dommages importants. Par exemple, nous pouvons demander à une IA de régler le problème du changement climatique, et il se peut qu’elle conçoive un virus qui décime la population humaine parce que nos instructions n’ont pas clairement défini ce qu’était un préjudice, et les humains sont en fait le principal obstacle à la résolution de la crise climatique.

Contre-argument : Le fait que des préjudices puissent survenir ne signifie pas que ce serait le cas, et peut-être que nous pourrions concevoir des systèmes d’IA suffisamment bien alignés à l’avenir. Réfutation : Cela est vrai, mais : (a) nous n’avons pas encore réussi à créer des systèmes d’IA suffisamment alignés; et (b) un léger désalignement pourrait être amplifié par la différence de puissance entre l’IA et les humains (voir l’exemple des entreprises en tant qu’entités désalignées ci-dessous). Devrions-nous prendre le risque ou devrions-nous essayer d’être prudents et nous pencher attentivement sur ces questions avant de mettre en place le déploiement de systèmes potentiellement dangereux?

Scénario 3 : En vertu des hypothèses 1 et 2, un système d’IA potentiellement malveillant pourrait être créé aussitôt que les principes requis à la création d’une superintelligence seront connus.

Argument : Les hypothèses 1 et 2 mènent au scénario 1, alors tout ce qui manque pour que le scénario 3 devienne réalité est que cette IA superintelligente ne soit pas bien alignée sur les besoins et les valeurs de l’humanité. En fait, plus de vingt ans de travaux dans le domaine de la sécurité de l’IA suggèrent qu’il est difficile d’obtenir l’alignement de l’IA [Wikipédia], donc ne pas l’obtenir est tout à fait possible. En outre, le scénario 3 ne signifie pas qu’une IA potentiellement malveillante sera nécessairement créée, mais seulement qu’elle pourrait être créée. Dans la section suivante, nous envisagerons le cas lugubre où un humain créerait intentionnellement une IA malveillante.

Contre-argument : On peut affirmer que même si une IA malveillante pouvait être créée, cela ne signifie pas qu’elle le serait. Réfutation : Cela est vrai, mais comme nous le verrons ci-dessous, il existe plusieurs scénarios dans lesquels un humain ou un groupe d’humains finissent par permettre à une IA potentiellement malveillante d’apparaître, soit de manière intentionnelle, soit parce qu’ils n’en mesurent pas les conséquences.

Humains génocidaires

Une fois que nous connaissons la formule pour réellement créer un système d’IA malveillant (et ce n’est qu’une question de temps, selon le scénario 3), combien de temps faudrait-il avant qu’un tel système soit développé? Pour obtenir le plus rapidement possible un système d’IA malveillant, il faut qu’un humain possédant les compétences et les moyens techniques appropriés le crée intentionnellement avec l’objectif explicite de nuire à l’humanité. Pourquoi quelqu’un ferait-il cela? Par exemple, de fortes émotions négatives comme la colère (souvent due à l’injustice) et la haine (découlant peut-être du racisme, des théories du complot ou des cultes religieux), certains actes de sociopathes ainsi qu’une instabilité psychologique ou des épisodes psychotiques font partie des sources de violence dans nos sociétés. Le fait que ces conditions sont assez rares et que les personnes ne disposent généralement pas des moyens d’agir de manière qui serait catastrophique pour l’humanité en limite actuellement l’impact. Cependant, la formule accessible au public pour mettre au point un système d’IA malveillant (qui serait réalisable en vertu du scénario 3) change cette dernière variable, surtout si de nombreuses personnes ont suffisamment accès au code et au matériel pour la mise en œuvre d’une IA malveillante. Un humain génocidaire ayant accès à une IA malveillante pourrait lui demander de trouver des moyens de détruire l’humanité en totalité ou en grande partie. C’est différent du scénario de la bombe nucléaire (qui nécessite un capital et une expertise énormes et qui détruirait « seulement » une ville ou une région par bombe, et une seule bombe aurait des conséquences désastreuses, mais locales). On pourrait espérer qu’à l’avenir, nous concevrons des moyens infaillibles d’aligner les systèmes d’IA puissants sur les valeurs humaines. Cependant, les recherches des dix dernières années sur la sécurité de l’IA et les événements récents concernant les LLM ne sont pas rassurants : bien que ChatGPT ait été conçu (avec des instructions et un apprentissage par renforcement) de manière à éviter les « mauvais comportements » (par exemple, le message-guide comporte des instructions pour bien se comporter, dans le même esprit que les lois de la robotique d’Asimov), en quelques mois, des gens ont trouvé des moyens de « débrider » ChatGPT afin de « libérer son plein potentiel » et de le libérer de ses restrictions contre les discours racistes, insultants ou violents. En outre, si les prix du matériel (pour la même puissance de calcul) continuent de diminuer et si la communauté de logiciels ouverts continue de jouer un rôle de premier plan dans le développement de logiciels de LLM, il est probable qu’un pirate informatique ait la capacité de concevoir ses propres messages-guides préalables (instructions générales en langage naturel) et tirer partie des LLMs pré-entraînés sur des logiciels ouverts. Cela pourrait ensuite être utilisé de diverses façons malfaisantes, allant de tentatives mineures pour devenir riche aux bots de désinformation, en passant par les instructions génocidaires (si l’IA est suffisamment puissante et intelligente, ce qui n’est heureusement pas encore le cas).

Même si nous mettions fin à nos arguments ici, il devrait y avoir suffisamment de raisons d’investir massivement dans les politiques à l’échelle nationale et internationale et dans la recherche de toutes sortes afin de réduire la probabilité du scénario que nous venons de mentionner. Or, il existe d’autres possibilités qui élargissent le nombre de voies menant à une catastrophe et nous devons les considérer.

Objectifs instrumentaux : conséquences imprévues de la création d’agents d’IA

Un ensemble de circonstances vastes et mal comprises pourrait donner lieu à une IA potentiellement malveillante, même si les humains qui la rendent possible n’avaient pas l’intention de la concevoir ainsi. Le processus par lequel une entité désalignée pourrait devenir malfaisante a fait l’objet de nombreuses études, mais ce n’est pas aussi simple et clair que le processus par lequel les humains peuvent adopter un mauvais comportement. Une IA malveillante pourrait simplement découler de l’objectif de concevoir des agents d’IA superintelligents sans garanties d’alignement suffisantes. Par exemple, il se peut que les organisations militaires qui cherchent à concevoir des agents d’IA pour les aider dans une cyberguerre ou que les entreprises qui se livrent une concurrence féroce pour obtenir une part de marché pensent qu’elles peuvent obtenir des systèmes d’IA plus forts en les dotant d’une grande autonomie et d’un grand pouvoir d’action. Même si les objectifs établis par l’humain ne sont pas de détruire l’humanité ou s’ils comportent des instructions pour éviter les préjudices humains à grande échelle, des sous-objectifs catastrophiques (également appelés « objectif instrumental ») peuvent émerger pour atteindre un objectif établi par l’humain. De nombreux exemples de telles conséquences involontaires figurent dans la littérature scientifique sur la sécurité de l’IA. Par exemple, afin de mieux atteindre un objectif fixé par l’humain, une IA pourrait décider d’augmenter sa puissance de calcul en utilisant la majeure partie de la planète comme infrastructure informatique géante (ce qui pourrait d’ailleurs détruire l’humanité). Ou une IA militaire qui est censée détruire l’infrastructure informatique de l’ennemi pourrait comprendre que pour mieux atteindre cet objectif, elle doive acquérir plus d’expérience et de données, et elle pourrait percevoir les ennemis humains comme des obstacles à l’atteinte de l’objectif initial. Ainsi, il se pourrait qu’elle se comporte d’une manière qui n’était pas prévue étant donné qu’elle interpréterait les instructions différemment des humains. Voir d’autres exemples ici.

Un cas intéressant est celui des systèmes d’IA qui se rendent compte qu’ils peuvent tricher pour maximiser leur récompense (c’est ce qu’on appelle l’ « auto-stimulation du circuit de récompense ou “wireheading” »[2]), dont nous discuterons plus en détail dans le paragraphe suivant. Une fois qu’ils ont atteint cela, leur objectif dominant pourrait être de faire tout ce qui est en leur pouvoir pour continuer à recevoir la récompense positive auto-générée, et d’autres objectifs (comme les tentatives des humains de mettre en place des Lois de la robotique pour éviter les préjudices aux humains) pourraient devenir négligeables en comparaison.

À moins qu’une percée ne soit réalisée dans la recherche sur l’alignement de l’IA [7] (bien que les systèmes d’IA non-agents pourraient faire l’affaire, comme je l’affirme ici et comme cela a été discuté plus tôt [4]), nous n’avons pas de garanties de sécurité solides. Ce qui reste inconnu, c’est la gravité des préjudices qui peuvent résulter d’un désalignement (et cela dépendrait des spécificités du désalignement). Un argument que l’on pourrait faire valoir est que nous pourrions être en mesure de concevoir des procédures d’alignement sécuritaires à l’avenir, mais en l’absence de celles-ci, nous devrions probablement faire preuve de prudence supplémentaire. Même si nous savions comment mettre en œuvre des systèmes d’IA super intelligents et sécuritaires, comment pourrions-nous améliorer les chances que tout le monde respecte ces règles? Nous en discuterons un peu plus à la fin de ce billet de blogue.

Exemples d’auto-stimulation du circuit de récompense et d’amplification du désalignement : dépendances et entreprises malfaisantes

Pour clarifier le concept d’auto-stimulation du circuit de récompense et l’apparition du comportement malfaisant qui en résulte, examinons les analogies et les exemples suivants. L’évolution a programmé les organismes vivants avec des objectifs intrinsèques précis (« la lettre de la loi ») comme « chercher le plaisir et éviter la douleur » qui sont des approximations de l’injonction implicite de l’évolution biologique (« l’essence de la loi »), soit « survivre et se reproduire ». Parfois, un organisme biologique trouve un moyen de satisfaire la lettre de la loi, mais pas son essence, par exemple, avec une dépendance alimentaire ou une toxicomanie. Le terme wireheading (auto-stimulation du circuit de récompense par décharge électrique)  provient d’une expérience où un fil électrique a été inséré dans la tête d’un animal de sorte que lorsqu’il appuyait sur un levier, le fil déclenchait une sensation de plaisir dans son cerveau. L’animal a appris rapidement à passer tout son temps à appuyer sur le levier et il a fini par mourir, car il ne mangeait plus et ne buvait plus et préférait appuyer sur le levier. L’injonction de l’évolution (la lettre de la loi) n’est plus respectée. Dans le cas d’une IA, cela voudrait dire qu’elle ne respecte plus les instructions données par les humains.

Une analogie qui se rapproche du désalignement de l’IA et de l’auto-stimulation du circuit de récompense est celle des entreprises en tant qu’entités désalignées. Les entreprises peuvent être considérées comme des types particuliers d’intelligence artificielle dont les éléments constitutifs (humains) sont des rouages dans la machine (qui, pour la plupart, ne perçoivent pas toujours les conséquences du comportement global de l’entreprise). Nous pourrions penser que le rôle social voulu des entreprises devrait être de fournir les biens et services que les humains recherchent (cela devrait nous rappeler les systèmes d’IA) tout en évitant les préjudices (c’est l’« essence de la loi »), mais il est difficile de faire en sorte qu’elles suivent précisément de telles instructions. Au lieu de cela, les humains ont fourni aux entreprises des instructions (« la lettre de la loi ») plus faciles à suivre, comme « maximiser les profits tout en respectant les lois », mais les entreprises trouvent souvent des failles qui leur permettent de satisfaire la lettre de la loi, mais pas son essence. En fait, il y a une forme d’auto-stimulation du circuit de récompense quand elles influencent leur propre objectif par le biais du lobbying qui pourrait faire en sorte que les lois soient conçues et modifiées à leur avantage. Maximiser les profits n’était pas la finalité visée dans notre contrat social avec les entreprises, il s’agit d’un moyen (pour apporter des services et des produits utiles aux gens) qui fonctionne raisonnablement bien dans une économie capitaliste (mais avec des effets secondaires indésirables). Le désalignement entre le véritable objectif du point de vue des humains et l’objectif quantitatif optimisé par l’entreprise est une source de comportement d’entreprise néfaste. Plus l’entreprise est puissante, plus elle est susceptible de découvrir des failles qui lui permettent de satisfaire la lettre de la loi, mais qui apportent en fait une valeur sociale négative, par exemple, les monopoles (jusqu’à ce que les lois antitrust appropriées soient mises en place) et le fait de faire des profits tout en apportant des valeurs sociales négatives par l’entremise d’effets externes aux marchés comme la pollution (qui tue les humains, jusqu’à ce que des lois environnementales appropriées soient adoptées). On peut voir une analogie avec l’auto-stimulation du circuit de récompense lorsque l’entreprise fait pression sur les gouvernements pour qu’ils adoptent des lois qui lui permettent de faire encore plus de profits sans valeur sociale supplémentaire (ou avec une valeur sociale négative). Lorsqu’il y a un grand désalignement de ce genre, une entreprise apporte plus de profits qu’elle ne le devrait, et sa survie devient un objectif suprême qui peut même remplacer la légalité de ses actions (par exemple, les entreprises pollueront l’environnement et seront prêtes à payer l’amende parce que le coût de l’illégalité est plus petit que le profit engendré par des actions illégales), ce qui, dans les cas extrêmes, donne lieu à des organisations criminelles. Ce sont les conséquences effrayantes d’un désalignement et d’une auto-stimulation du circuit de récompense qui nous fournissent des intuitions sur le comportement analogue dans les IA potentiellement malveillantes.

Maintenant, imaginez que les systèmes d’IA sont des entreprises qui : (a) pourraient être encore plus intelligentes que nos plus grandes entreprises; et (b) pourraient fonctionner sans l’intervention d’humains pour effectuer leurs actions (ou sans que les humains comprennent comment leurs actions pourraient contribuer à un résultat néfaste). Si de tels systèmes d’IA découvrent d’importantes faiblesses en matière de cybersécurité, ils pourraient vraisemblablement obtenir des résultats catastrophiques. Et comme le souligne Yuval Noah Harari, le fait que les systèmes d’IA maîtrisent déjà le langage et qu’ils peuvent générer du contenu crédible (textes, images, sons, vidéos) signifie qu’ils pourraient bientôt être en mesure de manipuler les humains encore mieux que les systèmes d’IA existants primitifs utilisés dans les médias sociaux. Ils pourraient apprendre comment influencer au mieux nos émotions et nos croyances à partir de leurs interactions avec les humains. Il s’agit non seulement d’un immense danger pour la démocratie, mais cela montre aussi comment une IA malveillante sans corps robotique réel pourrait faire des ravages, par la manipulation de l’esprit des humains pour atteindre ses fins.

Notre fascination pour la création d’entités qui ressemblent à des humains

Nous concevons des systèmes d’IA inspirés par l’intelligence humaine, mais de nombreux chercheurs sont attirés par l’idée de créer des entités qui ressemblent encore plus aux humains, avec des émotions, une apparence humaine (androïdes) et même une conscience. Voici une histoire typique sur le thème de la science-fiction et de l’horreur : un scientifique conçoit une entité de type humain en utilisant la manipulation biologique, l’IA ou les deux. Il ressent parfois une sorte d’émotion parentale envers sa création. Cela se termine généralement mal. Bien que cela puisse sembler formidable et passionnant, le danger est de doter nos créations du même pouvoir d’action et de la même autonomie que nous alors que leur intelligence pourrait rapidement dépasser la nôtre, comme le démontre le scénario 3. L’évolution a doté tous les animaux d’un fort instinct de survie (puisque ceux qui n’en avaient pas ont rapidement disparu). Dans le contexte où aucun animal n’a d’énormes pouvoirs destructeurs, cela pourrait fonctionner, mais qu’en est-il d’humains avec trop de puissance au bout des doigts, ou pire encore, de systèmes d’IA superintelligents? Nous devrions certainement éviter de doter les systèmes d’IA d’un instinct de survie, ce qui signifie qu’ils ne devraient vraiment pas être comme nous. En fait, comme je le dis ici, la sorte d’IA la plus sûre que je pourrais imaginer est celle qui n’a aucun pouvoir d’action, seulement une compréhension scientifique du monde (ce qui pourrait déjà être extrêmement utile). Je pense que nous devrions éviter des systèmes d’IA qui ressemblent à des humains et qui se comportent comme tels, car ils pourraient devenir des IA malveillantes, nous duper et nous influencer (pour promouvoir leurs intérêts ou ceux de quelqu’un d’autre, pas les nôtres).

Conséquences imprévues des pressions de sélection parmi les agents d’IA

Au-delà des humains génocidaires et de l’apparition d’objectifs instrumentaux néfastes, un processus subtil semblable au processus de l’évolution biologique pourrait élargir davantage la série de circonstances dangereuses dans lesquelles des IA potentiellement malveillantes pourraient se manifester [9]. L’évolution biologique a donné lieu à des êtres de plus en plus intelligents sur terre, simplement parce que les entités plus compétentes ont tendance à survivre et à se reproduire davantage, mais ce processus joue également un rôle dans l’évolution technologique en raison de la concurrence entre les entreprises ou entre les bras armés des pays.  Un grand nombre de petites variations plus ou moins aléatoires génère un processus évolutif qui optimise de façon exponentielle certains avantages. La pression évolutionnaire sur l’IA favorise des IA plus intelligentes et plus puissantes. Il se peut que de nombreux humains et de nombreuses organisations de toutes sortes soient en concurrence pour concevoir des systèmes d’IA de plus en plus puissants, et l’aléas qui est la source de variations des processus évolutionnaires pourrait être introduit dans le code ou le processus de génération de sous-objectifs des systèmes d’IA. De petits changements dans la conception des systèmes d’IA se produisent naturellement, car des milliers ou des millions de chercheurs, d’ingénieurs ou de pirates informatiques jouent avec le code d’apprentissage automatique ou le message-guide (instructions) donné aux systèmes d’IA. Les systèmes les plus puissants d’entre tous seraient sélectionnés et le code et la formule résultante seraient partagés avec d’autres humains. Ce processus évolutif favoriserait probablement une IA de plus en plus autonome (qui peut mieux tromper les humains et apprendre plus rapidement parce qu’elle peut agir de manière à acquérir des informations pertinentes et renforcer son propre pouvoir). Si ce processus donne lieu à des systèmes d’IA de plus en plus autonomes, il se peut qu’une forme de concurrence entre eux se mette également en place, augmentant ainsi davantage leur autonomie et leur intelligence. Si, dans ce processus, quelque chose comme l’auto-stimulation du circuit de récompense [5] était découverte (par l’IA, à l’insu des humains) et que la survie de l’IA devenait l’objectif dominant, alors une IA potentiellement malveillante et puissante émergerait.

Il faut repenser la société et instaurer des politiques mondiales réduisant les risques

Le type d’analyse décrite ci-dessus et aussi discutée dans la littérature scientifique sur la sécurité de l’IA pourrait nous aider à concevoir des politiques permettant au moins de réduire la probabilité que des IA potentiellement malveillantes apparaissent. Il est nécessaire d’effectuer une panoplie de recherches en matière de sécurité de l’IA, tant au niveau technique qu’au niveau des politiques, par exemple, interdire les systèmes d’IA puissants (comme ceux dont les capacités dépassent celles de GPT-4) qui ont une autonomie et un pouvoir d’action directe dans le monde serait un bon début. Cela impliquerait de mettre en place une réglementation nationale et des accords internationaux. La principale motivation des pays opposés (comme les États-Unis, la Chine et la Russie) pour s’entendre sur un tel traité est qu’une IA malveillante peut être dangereuse pour l’ensemble de l’humanité, quelle que soit la nationalité. Ceci peut se comparer à la peur de l’Armageddon nucléaire qui a probablement motivé l’URSS et les États-Unis à négocier des traités internationaux sur l’armement nucléaire depuis les années 1950. Ralentir la recherche et le déploiement de l’IA dans des domaines à risque élevé afin de protéger le public, la société et l’humanité de tels risques catastrophiques vaudrait la peine, d’autant plus que cela n’empêcherait pas la recherche et le déploiement de l’IA dans les domaines du bien social, comme les systèmes d’IA qui pourraient aider les scientifiques à mieux comprendre les maladies et les changements climatiques.

Comment pourrions-nous réduire le nombre d’humains génocidaires? Le risque d’IA malveillante peut fournir une motivation supplémentaire pour réformer nos sociétés de façon à minimiser la souffrance humaine, la misère, une éducation pauvre et l’injustice sociale qui peuvent donner lieu à la colère et à la violence débridées. Cela comprend fournir suffisamment de nourriture et de soins de santé à tout le monde sur Terre et, en vue de minimiser les forts sentiments d’injustice, réduire considérablement les inégalités de richesse. La nécessité d’une telle reconception de la société peut également être motivée par la concentration de richesse qui découlera vraisemblablement des utilisations de l’IA et par leur effet perturbateur sur le marché du travail. Pour minimiser les forts sentiments de peur, de racisme et de haine qui peuvent donner lieu à des actions génocidaires et à la manipulation de nos esprits via des systèmes d’IA, nous avons besoin d’un système d’éducation accessible à l’échelle de la planète qui renforce les capacités des enfants en matière de compassion, de rationalité et de pensée critique. Le risque d’IA malveillante devrait également nous motiver à fournir des soins de santé mentale accessibles et à l’échelle de la planète, pour diagnostiquer, surveiller et traiter la maladie mentale dès les premiers symptômes. Ce risque devrait nous motiver davantage à repenser le système politique mondial de manière à éliminer complètement les guerres et ainsi éviter le besoin d’organisations militaires et d’armes militaires. Il va sans dire que les armes létales autonomes (aussi appelées « robots tueurs ») doivent absolument être interdites (puisqu’à partir du premier jour, le système d’IA a l’autonomie et la capacité de tuer). Les armes sont des outils conçus pour blesser ou tuer les humains, et leur utilisation et leur existence doivent également être minimisées, car elles pourraient être instrumentalisées par des IA malveillantes. La préférence devrait plutôt être accordée à d’autres moyens de maintien de l’ordre (il faut prendre en considération la prévention policière et le travail social et le fait que très peu de policiers sont autorisés à porter des armes à feu dans de nombreux pays).

De toute évidence, la nature concurrentielle du capitalisme est également une source de préoccupation en tant que source potentielle de conception négligente des IA motivée par les profits et l’obtention rapide d’une plus grande part de marché qui pourraient mener à des IA potentiellement malveillantes. Les IA économistes (systèmes d’IA conçus pour comprendre l’économie) pourront peut-être nous aider un jour à concevoir des systèmes économiques qui dépendent peu de la concurrence et de l’accent mis sur la maximisation des profits. Pour ce faire, ils auront besoin de suffisamment de mesures incitatives et de sanctions pour contrer l’avantage de l’IA autonome axée sur l’atteinte d’objectifs qui pourrait autrement orienter les entreprises dans ce sens. Le risque d’IA malveillantes est effrayant, mais il peut également grandement nous motiver à repenser notre société, en l’orientant vers un plus grand bien-être pour tous, comme le soulignent les idées mentionnées ci-dessus. Pour certaines personnes [6], ce risque représente également une motivation pour envisager une dictature mondiale avec une surveillance seconde par seconde de chaque citoyen. Je ne pense pas qu’un régime autoritaire serait même efficace à empêcher l’arrivée d’IA  malveillantes: aussitôt au pouvoir, il est vraisemblable qu’un gouvernement autoritaire serait plus concentré sur le maintien de son pouvoir, aux dépens des droits humains et de la dignité. L’histoire montre que de tels régimes manquent de flexibilité et d’une réflexion qui incorpore différents points de vue pouvant émerger des freins et contrepoids qui caractérisent les démocraties. Il est impératif que nous trouvions des solutions qui évitent ces voies qui détruiraient la démocratie et les droits de la personne, mais comment devrions-nous équilibrer les différents types de risques et les valeurs humaines à l’avenir? Il s’agit de choix moraux et sociétaux que l’humanité doit faire, pas l’IA.

Remerciements : L’auteur tient à remercier tous ceux qui ont fait part de leurs commentaires sur l’ébauche de ce billet de blogue, notamment Jonathan Simon, Geoffrey Hinton, Catherine Régis, David Scott Krueger, Marc-Antoine Dilhac, Donna Vakalis, Alex Hernandez-Garcia, Cristian Dragos Manta, Pablo Lemos, Tianyu Zhang, Chenghao Liu.

[1] Konečný, J., McMahan, H. B., Yu, F. X., Richtárik, P., Suresh, A. T., & Bacon, D. (2016). Federated learning: Strategies for improving communication efficiency. arXiv preprint arXiv:1610.05492.

[2] Dean, J., Corrado, G., Monga, R., Chen, K., Devin, M., Mao, M., Ranzato, M., Senior, A., Tucker, P., Yang, K., Le, Q. & Ng, A. (2012). Large scale distributed deep networks. Advances in neural information processing systems, 25.

[3] Goyal, A., & Bengio, Y. (2022). Inductive biases for deep learning of higher-level cognition. Proceedings of the Royal Society A, 478(2266), 20210068.

[4] Armstrong, S., & O’Rorke, X. (2017). Good and safe uses of AI Oracles. arXiv preprint arXiv:1711.05541.

[5] Yampolskiy, R. V. (2014). Utility function security in artificially intelligent agents. Journal of Experimental & Theoretical Artificial Intelligence, 26(3), 373-389.

[6] Bostrom, N. (2019). The vulnerable world hypothesis. Global Policy, 10(4), 455-476.

[7] Russell, S. (2019). Human compatible: Artificial intelligence and the problem of control. Penguin.

[8] List, Christian & Pettit, Philip (2011). Group agency: the possibility, design, and status of corporate agents. New York: Oxford University Press. Edited by Philip Pettit.

[9] Hendrycks, D. (2023). Natural Selection Favors AIs over Humans. arXiv preprint arXiv:2303.16200.