Questions fréquentes sur les risques catastrophiques liés à l’IA

J’ai entendu, de différentes personnes, de nombreux arguments concernant les risques catastrophiques liés à l’IA. Je voulais clarifier ces arguments d’abord pour moi-même, car j’aimerais vraiment être convaincu qu’il n’est pas nécessaire de nous inquiéter. Cependant, le fait de les partager et d’ouvrir la discussion plus largement peut aussi être utile.

Ce sujet m’interpelle depuis environ une décennie mais je ne suis pas un expert en éthique. J’ai précédemment parlé de plusieurs types d’impacts sociaux et de risques liés à l’IA, certains produisant déjà des préjudices concrets, tels que ceux dus à l’amplification de la discrimination et des préjugés, ou à la concentration d’expertise, de pouvoir et de capital mettant l’IA entre les mains d’un petit groupe non représentatif d’humains (plus souvent des hommes blancs ayant un diplôme universitaire en informatique et provenant des pays les plus riches du monde), possiblement au détriment de nombreux autres.

Consultez la Déclaration de Montréal pour le développement responsable de l’IA, le livre de Ruha Benjamin Race after Technology, notre récent travail avec l’ONU pour un aperçu de l’impact social de l’IA axé sur les droits de la personne ou le livre de Virginia Eubanks sur l’automatisation des inégalités, Automating Inequality.

La préoccupation soulevée par ces préjudices actuels a parfois été mise en opposition à celle que posent les risques catastrophiques des systèmes d’IA plus avancés, la discussion sur ces derniers occultant alors le travail sur les premiers. Certains des arguments formulés ci-dessous remettent en question cette opposition, suggérant plutôt que nous devrions promouvoir un cadre réglementaire fondamentalement axé sur les droits de la personne et traitant de tous les préjudices et risques liés à l’IA. Notez que les préjudices catastrophiques préoccupants comprennent non seulement la situation dans laquelle meurent une grande partie des humains , mais aussi celles dans lesquelles les droits de la personne et la démocratie sont gravement limités. Voyez par exemple mon billet précédent sur des scénarios qui pourraient donner lieu à des situations indésirables liées à l’IA et une ontologie détaillée des scénarios catastrophiques dans ce récent article, dont beaucoup vont au-delà des scénarios évoqués ci-dessous.

Nous appelons l’IA “surhumaine” si elle surpasse les humains dans un large éventail de tâches, et nous l’appelons “superdangereuse” si elle est surhumaine et qu’elle représente une menace importante pour l’humanité, par exemple en ayant des objectifs dont l’exécution pourrait produire des résultats catastrophiques. Les compétences qui rendraient une entité surhumaine superdangereuse comprennent le raisonnement stratégique, la persuasion et la manipulation sociales, la recherche et le développement de nouvelles technologies, le codage et le piratage, etc. En fait, il n’est pas nécessaire qu’une IA soit extrêmement intelligente ou complètement générale pour qu’elle devienne une menace majeure, ni qu’elle dépasse les humains dans toutes leurs tâches pour qu’elle soit une menace potentielle, mais il est clair qu’une plus grande intelligence dans plus de domaines augmente les risques.

Avant d’explorer ces arguments, j’ai trouvé utile de passer par un « processus de formation de pensée » : au lieu d’essayer de prédire directement la possibilité de conséquences catastrophiques futures de l’IA, il est pertinent de se poser des questions sur des événements mieux définis dont la séquence pourrait produire des résultats catastrophiques, d’où le sondage ci-dessous, que j’invite ceux qui ont une expertise pertinente à essayer. Un autre exercice utile est de regrouper les résultats de divers groupes de personnes.

Sondage pour les experts en IA et en politiques

Étant donné les nombreuses incertitudes sur l’avenir, il peut être utile de tenir compte de la diversité des opinions concernant la probabilité de différents événements qui pourraient, à terme, mener à des catastrophes pour l’humanité en raison de situations indésirables liées à l’IA. Prenons en compte les quatre énoncés suivants :

En supposant qu’il n’y ait pas de changement réglementaire structurel et pertinent dans notre société dans les dix ans, nous saurons comment mettre au point un système d’IA surhumain à un coût abordable pour une entreprise de taille moyenne.
En supposant qu’il n’y ait pas de changement réglementaire structurel et pertinent dans notre société et que A soit vrai, quelqu’un sur Terre demandera intentionnellement à une telle IA d’atteindre un objectif dont les conséquences seraient catastrophiques si celle-ci réussissait.
En supposant qu’il n’y ait pas de changement réglementaire structurel et pertinent dans notre société et que A soit vrai, quelqu’un sur Terre instruira une telle IA pour qu’elle devienne autonome et dangereusement désalignée (par exemple en ayant un objectif important d’auto-préservation ou en développant ses propres sous-objectifs, ce qui pourrait produire des résultats catastrophiques si ceux-ci sont atteints).
En supposant qu’il n’y ait pas de changement réglementaire structurel et pertinent dans notre société, même si A se produit, puis que B ou C se produisent à leur tour, nous serons en mesure de nous protéger contre les catastrophes en utilisant des mesures défensives existantes.

Attribuez une valeur ou une répartition de probabilités sur les quatre probabilités P_A , P_B , P_C et P_D(en notant qu’il s’agit toutes de probabilités conditionnelles) que les énoncés correspondants A, B et C (étant donné A) ou D (étant donnés A et B ou C) sont vrais. Compte tenu de ces quatre probabilités, nous pouvons quantifier approximativement le risque de résultats catastrophiques avec le produit P_A x (1 – (1 – P_B ) x (1 – P_C)) x (1 – P_D ) dans le scénario statu quo où nous ne prenons pas ces risques potentiels au sérieux suffisamment à l’avance (mais restreindre l’accès par un facteur 1000 réduirait la probabilité globale de presque autant). Ne connaissant pas ces probabilités avec certitude, nous devons faire la moyenne du produit ci-dessus par rapport à leurs valeurs tirées d’une distribution, par exemple obtenues par un sondage auprès d’experts.

Vous voudrez peut-être refaire le sondage après avoir lu la discussion ci-dessous. Il devrait être clair lors du sondage (et de la réflexion sur le dialogue ci-après) qu’il nécessite des connaissances dans plusieurs domaines d’expertise, pas seulement dans le domaine de l’IA.

Dans cette optique, examinons maintenant ce dialogue difficile et ses arguments, sous forme de questions fréquentes et de réponses correspondantes. Les questions sont posées du point de vue d’une personne qui croit que nous ne devrions pas nous inquiéter des IA superdangereuses et les réponses, données de celui d’une personne préoccupée par ces possibilités. En réfléchissant aux arguments ci-dessous, certains des principaux points incitant à prendre ce risque au sérieux peuvent se résumer comme suit : (1) de nombreux experts conviennent que les capacités surhumaines pourraient survenir en quelques années seulement (mais cela pourrait aussi prendre des décennies) (2) les technologies numériques ont des avantages par rapport aux machines biologiques (3) nous devrions prendre au sérieux même une petite probabilité de résultats catastrophiques causés par l’IA superdangereuse, en raison de l’ampleur possible de l’impact (4) les systèmes d’IA plus puissants peuvent être catastrophiquement dangereux même s’ils ne dépassent pas les humains sur tous les fronts et même s’ils doivent passer par ceux-ci pour produire des actions non virtuelles, tant qu’ils peuvent manipuler ou payer ces mêmes humains pour des tâches (5) les résultats catastrophiques de l’IA font partie d’un spectre de dommages et de risques qui devraient être atténués avec des investissements et une surveillance appropriés afin de protéger les droits de la personne et l’humanité, y compris l’utilisation possible de systèmes d’IA sécuritaires pour nous aider à nous protéger.

IA superdangereuse

Q1 : Les systèmes actuels d’IA de pointe sont loin de l’intelligence humaine; il leur manque des éléments fondamentaux, ils n’ont aucune intention et des décennies, voire des siècles, peuvent passer avant que cet écart soit comblé si jamais nous y parvenons, compte tenu de la nature complexe et insuffisamment comprise de l’intelligence.

R1 : Je suis d’accord quant au fait qu’il nous manque des éléments fondamentaux, mais des ressources financières massives sont versées dans l’IA, ce qui a récemment entraîné une accélération rapide et inattendue de la compétence des systèmes d’IA, en particulier dans la maîtrise du langage et la capacité à saisir la compréhension à un niveau intuitif (système 1). La recherche pour combler le fossé entre les capacités de l’IA et celles de l’humain fait des progrès, par exemple pour améliorer les capacités du système 2 (raisonnement, modèle de la réalité, causalité, estimation de l’incertitude épistémique). Si nous avons de la chance, vous avez raison et ces projets de conception de l’IA surhumaine peuvent prendre de nombreuses décennies, ce qui nous donne plus de temps pour nous préparer et nous adapter, mais il est également très possible que les propositions actuelles pour introduire les capacités du système 2 à l’apprentissage profond mènent à une amélioration radicale des capacités de l’IA en quelques années seulement. Mon estimation actuelle place un intervalle de confiance de 95 % pour l’horizon temporel de l’intelligence surhumaine entre 5 et 20 ans. Nous prenons des mesures pour minimiser les risques futurs comme les pandémies, même en présence d’incertitudes quant au calendrier. Les systèmes d’IA avec des intentions et des objectifs existent déjà : la plupart des systèmes d’apprentissage par renforcement (RL) en sont dotés, à travers une fonction de récompense et parfois même des objectifs spécifiés en langage naturel. Quant à savoir si l’IA au niveau humain ou surhumain est même possible, je soutiens fortement qu’il existe un consensus scientifique selon lequel les cerveaux sont des machines biologiques et qu’il n’y a aucune preuve d’impossibilité inhérente à la construction de machines au moins aussi intelligentes que nous. Enfin, un système d’IA n’aurait pas besoin d’être meilleur que nous sur tous les fronts pour avoir un impact catastrophique (même l’entité la moins intelligente, un virus, pourrait détruire l’humanité).

Q2 : Quand nous faisons de la recherche, nous avons parfois l’impression que nous progressons vers l’obstacle principal, devant nous, que nous sommes sur le point d’atteindre le sommet de la montagne (le défi auquel nous sommes confrontés). Mais c’est souvent pour réaliser plus tard qu’il existe un autre obstacle, une autre montagne que nous ne pouvions pas voir avant d’en atteindre le sommet. Pourquoi serait-ce différent cette fois-ci? Il reste plusieurs questions ouvertes dans la recherche sur l’IA (comme le RL hiérarchique et l’apprentissage profond du système 2) suggérant que la mise à l’échelle et l’ingénierie seules ne seront pas suffisantes pour atteindre l’intelligence de niveau humain.

R2 : Très vrai, mais ma préoccupation ne repose pas sur l’hypothèse que la mise à l’échelle et l’ingénierie suffiront. Ce qui accentue aussi fortement cette question dans mon esprit, c’est le risque et son ampleur. Peut-être y a-t-il un obstacle majeur aux IA surhumaines que nous ne voyons pas encore. Ou peut-être pas. Il est très difficile de le savoir, mais il est certain que des milliards de dollars sont actuellement investis pour accélérer les progrès des capacités de l’IA, en raison du succès de ChatGPT. Face à cette incertitude, à l’ampleur du risque de catastrophes ou pire, au danger d’extinction et au fait que nous n’avions pas anticipé les progrès rapides des capacités de l’IA des dernières années, la prudence agnostique me semble être une voie beaucoup plus sage. Toutes les questions de recherche ouvertes que vous mentionnez font l’objet de recherches en cours. Que se passera-t-il si elles aboutissent dans les prochaines années?

Q3 : Comme nous ne comprenons pas encore exactement à quoi ressemblerait une IA surhumaine, tenter de prévenir de tels risques inconnus est une perte de temps. Aurions-nous pu trouver des règles de sécurité pour les avions avant les frères Wright? Nous corrigerons les problèmes avec des systèmes d’IA très puissants lorsque nous les comprendrons mieux.

R3a : Je pensais exactement cela : que l’intelligence surhumaine était encore loin dans le futur; mais ChatGPT et GPT-4 ont considérablement réduit mon horizon prévisionnel (de 20-100 ans à 5-20 ans). Avec plus de 100 millions d’utilisateurs, nous sommes bien au-delà de l’ère des frères Wright. Ces grands modèles de langage (LLM) nous ont également donné de très bons indices sur ce qu’une IA peut déjà faire et sur ce que lui manque, et plusieurs groupes de recherche travaillent sur ces lacunes. La vitesse inattendue à laquelle les LLM ont acquis leur niveau de compétence actuel simplement en raison de la mise à l’échelle suggère que nous pourrions également voir le reste de l’écart être comblé en quelques années seulement avec des changements algorithmiques mineurs. Même si l’on n’est pas d’accord avec la distribution de l’horizon temporel, je ne vois pas comment on peut rejeter cette possibilité. Je reconnais votre argument selon lequel il est difficile d’élaborer des règlements et des contre-mesures pour quelque chose qui n’existe pas encore. Cependant, nous avons des exemples de propositions pour contrôler les technologies dangereuses (notamment l’énergie atomique dans les années 1910 et l’IA aujourd’hui, ou des agents biologiques réglementés par un régime mondial qui est agnostique aux pathogènes exacts qui pourraient être utilisés) qui ont été élaborées et qui ne s’appuyaient pas sur la forme exacte de la technologie. L’autre élément important ici est la lenteur de l’adaptation de la société, sans parler des gouvernements pour mettre en œuvre des politiques et des règlements. Je crois que nous devrions étudier et évaluer les mesures préventives que nous pourrions prendre en tant que société pour réduire ces risques et préparer graduellement des contre-mesures, et nous devons commencer le plus rapidement possible. Les politiques génériques, telles que la surveillance et l’évaluation des capacités, les licences, les exigences en matière de rapports et la vérification des technologies dangereuses, s’appliquent à toutes les technologies. Consultez également cette discussion sur la diversité des actions qu’il faut envisager pour atténuer les risques catastrophiques de l’IA. Notre manque de compréhension et de visibilité des scénarios catastrophiques pose effectivement des dilemmes difficiles concernant la réglementation (par exemple, consulter le dilemme de Collingridge). Enfin, en revenant à la question de ce à quoi ressemblerait une IA surhumaine, il existe déjà une hypothèse de travail : prenez les architectures génératives actuelles de l’IA et entraînez-les (en tant que machines d’inférence, consultez ce billet de blogue ) avec des machines et des objectifs du système 2 (qui doivent être améliorés, certes) afin qu’elles puissent également mieux raisonner, être plus cohérentes et imaginer des plans et des situations hypothétiques. Il s’agirait tout de même d’un grand réseau neuronal entraîné avec une certaine fonction objective et une certaine procédure pour générer des exemples (pas seulement les données observées). Nous avons maintenant beaucoup d’expérience avec ces systèmes, et la manière de les rendre sûrs et fiables reste une question de recherche sans réponse.

R3b : De plus, même si nous ne maîtrisons pas entièrement tous les principes qui expliquent notre propre intelligence (systèmes 1 et 2), la technologie informatique numérique peut apporter des avantages supplémentaires par rapport à l’intelligence biologique. Par exemple, les ordinateurs peuvent paralléliser l’apprentissage sur de nombreuses machines grâce à la communication à large bande passante qui leur permet d’échanger des billions de paramètres de modèle, tandis que les humains sont limités à l’échange d’informations à un rythme de quelques bits par seconde par le biais du langage. Par conséquent, les ordinateurs peuvent apprendre à partir d’ensembles de données beaucoup plus importants (par exemple, lire une grande partie de l’Internet), ce qui est impossible à l’échelle d’une vie humaine. Consultez les arguments de Geoff Hinton sur ce sujet, surtout à partir de 21 m 37 s.

R3c : Enfin, même si une IA n’est pas plus forte que les humains pour toutes les capacités cognitives, elle pourrait toujours être dangereuse si les aspects qu’elle maîtrise (par exemple le langage, mais pas la robotique) sont suffisants pour causer des ravages. Ce pourrait être en utilisant le dialogue avec les humains pour créer un lien émotionnel et les manipuler, les payer ou les influencer à agir dans le monde d’une façon qui pourrait être très nuisible, à commencer par la déstabilisation de la démocratie, plus encore que par les médias sociaux actuels. Nous savons qu’au moins un sous-ensemble d’humains est très crédule et peut croire, par exemple, aux théories conspirationnistes avec une conviction nettement hors de proportion par rapport à leurs données. De plus, le crime organisé est susceptible d’exécuter des tâches bien rémunérées sans même savoir qu’elles sont payées par une IA.

Les humains génocidaires et le danger des technologies très puissantes

Q4 : Il existe déjà de nombreuses technologies dangereuses, et l’humanité a survécu (probablement pour de bonnes raisons, y compris notre capacité à nous adapter au danger), alors pourquoi serait-ce différent avec l’IA ?

R4 : Tout d’abord, notez que l’on voudrait plus que la survie de l’humanité; il existe de nombreux exemples de risques majeurs provenant de technologies puissantes (détonations nucléaires, utilisation générale d’armes, pollution chimique, polarisation politique, discrimination raciale) et auxquels notre espèce a survécu jusqu’à présent (parfois avec des accidents évités de justesse), mais qui sont suffisamment graves pour justifier des mesures préventives. Deuxièmement, l’IA a des attributs qui la rendent particulièrement risquée parmi toutes les innovations technologiques. La probabilité de résultats catastrophiques d’une technologie dépend d’une combinaison de nombreux facteurs. Il s’agit notamment du niveau de puissance de la technologie, de son autonomie et de son agentivité, ainsi que de son accessibilité (le nombre de personnes qui peuvent l’utiliser). En utilisant la technologie nucléaire comme comparaison, il n’est pas facile de mettre la main sur le matériau nucléaire et l’équipement pour les transformer en bombes à impact élevé. L’utilisation d’armes nucléaires est étroitement contrôlée et accessible à un petit nombre de personnes, tandis que les obstacles au piratage d’ordinateurs sont plus faibles et plus difficiles à appliquer; tout le monde peut télécharger des logiciels mis à disposition sur Internet ou utiliser un API sans avoir besoin de licence ou de certification éthique. Le développement d’interfaces en langage naturel, comme ChatGPT, signifie que l’on peut donner des instructions à un système d’IA sans même savoir programmer. La puissance des technologies augmente le danger de leur utilisation et une accessibilité élevée augmente d’autant l’étendue de ces dangers. Un paradigme similaire se joue dans la biologie synthétique : avec sa commercialisation, il est devenu plus facile pour les individus de commander de nouvelles protéines ou microbes portant un nouvel ADN dont le potentiel à être une arme biologique serait difficile à évaluer pour un biologiste. Enfin, l’IA surhumaine représente une catégorie spéciale dans le sens où nous n’avons jamais construit de technologie plus intelligente que nous, qui pourrait elle-même créer des versions encore plus intelligentes d’elle-même. Étant donné que les systèmes d’IA sont déjà capables d’agir avec compétence pour atteindre des objectifs qui ne correspondent pas aux intentions humaines (c’est à dire le problème d’alignement de l’IA), les systèmes d’IA surhumains autonomes ont le potentiel d’être extrêmement dangereux, d’une autre manière que celle des technologies précédentes et qui reste intrinsèquement difficile à prédire (parce qu’il est difficile de prédire le comportement des entités beaucoup plus intelligentes que nous). De plus, transformer un système d’IA non autonome, comme ChatGPT, en un système ayant une agentivité et des objectifs peut être facile, comme cela a été montré avec Auto-GPT. Bien que notre société dispose déjà de mécanismes d’autoprotection (par exemple contre le crime), ils ont été développés pour se défendre contre les humains et il n’est pas clair à quel point ils nous défendraient efficacement contre des formes plus fortes d’intelligence.

Q5 : Pourquoi quelqu’un en pleine possession de ses moyens demanderait-il à un ordinateur de détruire l’humanité, une partie de celle-ci ou les fondements de notre civilisation?

R5 : L’histoire est remplie de cas d’humains qui font des choses terribles, dont des génocides ou des guerres qui finissent par tuer une fraction importante de personnes dans leur camp. L’humanité s’est avérée très capable à la fois de malveillance et d’irrationalité. Il existe de nombreux exemples de dilemmes théoriques où les incitatifs individuels ne sont pas bien alignés sur le bien-être mondial (par exemple, lors d’une course à l’armement ou dans la compétition entre les entreprises entraînant une réduction de la sécurité pour une performance accrue) par l’absence d’un mécanisme de coordination adéquat. Je ne suis pas du tout rassuré : bien que certains ou même la majorité des humains puissent être compatissants et avoir des normes éthiques élevées, il suffit que quelques-uns ayant des intentions violentes ou mal orientées aient accès à une technologie très dangereuse pour causer des préjudices majeurs. Chaos-GPT a montré (comme une blague pour l’instant) qu’on pouvait alors simplement demander à l’IA de détruire l’humanité. Bien sûr, et heureusement, le niveau actuel de compétence de l’IA ne lui permettrait pas (encore) de faire des ravages, mais qu’en sera-t-il dans environ cinq ou dix ans?

Q6 : Je dirais plutôt que l’IA n’est pas seulement déjà bénéfique, mais qu’elle peut apporter d’immenses avantages à l’humanité dans le futur, notamment pour nous aider à nous défendre contre les utilisations ou actions criminelles d’autres IA.

R6 : Je suis d’accord pour dire que l’IA plus puissante peut être extrêmement utile, mais avec cette puissance vient également la possibilité d’utilisations plus dangereuses et donc un plus grand niveau de responsabilité pour éviter les dommages. En fait, les systèmes d’IA existants (qui ne sont pas surhumains et qui ne sont pas encore d’usage général) sont actuellement sans risque de perte de contrôle et peuvent toujours être très utiles. Pour bénéficier des avantages de l’IA plus avancée, nous devons réduire les risques associés : nous l’avons fait avec d’autres technologies dans le passé. Je conviens également que nous pourrions utiliser des systèmes d’IA pour nous défendre contre les systèmes d’IA mal utilisés ou hors de contrôle. Mais pour ce faire, nous avons probablement besoin d’une IA sûre et alignée avec nos valeurs en premier lieu (ce que nous ne savons pas encore faire) et nous devons donc faire croître massivement la recherche et le développement dans ces domaines. Les « bonnes » IA pourraient également nous aider à mettre en place des défenses plus robustes contre les vecteurs d’attaque, par exemple par la détection des pathogènes, la modélisation de la stabilité climatique et de la biodiversité, la surveillance de l’écosystème d’information, la cybersécurité, le suivi de la fraude, etc. Mais je ne crois pas que cela soit une protection suffisante : nous devons réduire les risques sur tous les fronts lorsque cela est possible, après avoir évalué les avantages et les inconvénients de toute mesure préventive.

Q7 : Limiter l’accès aux IA surhumaines pourrait avoir un effet secondaire négatif en ce qui concerne nos libertés, mais pourrait également nuire à notre capacité à lutter contre une IA potentiellement nuisible grâce à la diversité des IA sécuritaires (qui, espérons-le, seraient majoritaires, car les accidents et les personnes malveillantes seraient l’exception plutôt que la règle).

R7a : Je suis d’accord pour dire qu’il y a des compromis à faire, mais nous avons fait face à des compromis similaires pour d’autres technologies dangereuses. Je crois que l’IA surhumaine ne devrait pas être utilisée et développée par tout le monde (comme la technologie nucléaire, les armes à feu et les avions), que la gouvernance de l’IA surhumaine devrait être effectuée par un groupe large et représentatif d’intervenants avec le bien-être de toute l’humanité comme objectif, et que les bénéfices de l’IA devraient être redistribués au profit de tous, ce qui nécessite de solides institutions démocratiques.

R7b : Plus précisément, nous devons limiter l’accès aux systèmes d’IA surhumaine qui ne sont pas manifestement sécuritaires. Lorsqu’ils sont sécuritaires, ils peuvent nous aider à nous défendre contre des IA nuisibles. Mais tant qu’ils ne sont pas sécuritaires, cela semble peu judicieux. Je conviens qu’il y a des désavantages à toute réglementation et je conviens que le fait d’avoir un ensemble important et diversifié d’IA sûres et bénéfiques d’intelligence comparable devrait nous aider à contrer une IA nuisible. Cependant, le scénario qui me préoccupe le plus est celui où quelqu’un trouve une amélioration algorithmique qui, lorsqu’elle est augmentée avec le type d’ensemble d’entraînement et de ressources informatiques massifs que nous voyons déjà, provoquerait un saut majeur en intelligence, soit bien au-dessus de l’intelligence humaine, soit bien au-dessus des systèmes d’IA existants. Il y a toujours une première fois pour des choses comme celle-ci, et à ce moment-là, je suppose que les responsables de ce système d’IA supérieur auront un équivalent de la dynamite en leur possession. Il vaut mieux que ce soient des personnes ayant des normes éthiques élevées qui ont été formées pour suivre des procédures très rigoureuses (de sorte que, par exemple, ce ne soit pas une seule personne, mais un comité qui prenne les décisions importantes sur ce qu’il faut demander à l’IA lors de ses tests initiaux), d’une manière analogue à la façon dont nous gérons les bombes nucléaires et les grandes quantités de matériaux nucléaires. En général, je suis préoccupé par la vitesse à laquelle l’intelligence des systèmes d’IA pourrait croître. Si cette croissance est assez lente, les humains et notre organisation sociale ont la chance de s’adapter et d’atténuer les risques. Si elle est trop rapide, le danger d’accidents augmente considérablement. La réduction de l’accès ralentirait effectivement les choses, mais cela pourrait être préférable. Je crois que la voie la plus sécuritaire consiste à mettre le développement des systèmes d’IA les plus puissants entre les mains d’organisations internationales qui ne font pas avancer les intérêts d’une seule entreprise ou d’un seul pays, mais cherchent plutôt le bien-être de l’humanité.

Alignement de l’IA

Q8 : Si nous pouvons concevoir une ou plusieurs IA surhumaines et leur demander de ne pas nuire à l’humanité, elles devraient être en mesure de nous comprendre, et donc de comprendre nos besoins et nos valeurs, ce qui signifie que le problème d’alignement de l’IA n’en est pas un.

R8 : J’aimerais que vous ayez raison, mais plus d’une décennie de recherche sur l’alignement et l’apprentissage par renforcement de l’IA ainsi que sur la théorie des contrats en économie nous laisse peu de choses en termes de résultats rassurants, surtout compte tenu des enjeux élevés impliqués. Même si une IA dangereuse comprend ce que nous voulons, cela ne signifie pas qu’elle fera ce que nous voulons. Un enjeu fondamental est qu’il est difficile de s’assurer que les systèmes d’IA comprennent nos intentions et nos valeurs morales. Même le faire chez les humains est difficile : les sociétés ont essayé de bâtir quelque chose de similaire avec les systèmes juridiques, mais ceux-ci sont clairement imparfaits et des grandes entreprises trouvent toujours des façons de les contourner. Il semble donc très difficile de garantir que ce que nous demandons à la machine est vraiment ce qu’elle comprend qu’elle devrait faire. À titre d’illustration, regardez le film de science-fiction de 1970, Colossus : Le projet Forbin , ou le livre Human Compatible de Stuart Russell et son exemple d’entreprises de combustibles fossiles, qui trompent l’humanité depuis des décennies et entraînent des dommages massifs (et bien plus encore) dans la poursuite de leur objectif de profit. L’utilisation récente de l’apprentissage par renforcement pour affiner les LLM fait en sorte que l’IA essaie de plaire et de convaincre les annotateurs de l’IA, et non pas nécessairement de dire la vérité, ce qui peut même entraîner l’utilisation de la tromperie par l’IA pour obtenir des récompenses ou des explications trompeuses. Cependant, si nous sommes prêts à abandonner certaines capacités des systèmes d’IA, je suis persuadé que nous pourrions construire des oracles ayant une intelligence surhumaine qui sont utiles et sécuritaires, car ils n’auraient pas d’agentivité, d’autonomie, d’objectifs et d’intention d’autoconservation. Pourtant, conceptuellement, il ne serait pas difficile d’enrober un tel système de scripts produisant une IA autonome (et donc potentiellement dangereuse) qui utilise l’oracle pour déterminer comment atteindre ses objectifs. C’est exactement ce qu’Auto-GPT a fait, avec ChatGPT comme oracle. Heureusement, ce n’est pas encore dangereux parce que ChatGPT n’est pas plus intelligent que nous (bien que, comme un idiot savant, il connaît plus de faits que quiconque). Par conséquent, il ne suffit pas d’avoir une recette pour créer une IA sécuritaire et utile, nous avons également besoin de l’environnement politique et social pour minimiser le risque que quelqu’un ne respecte pas ces directives.

Q9 : Je suis presque certain que pour construire des systèmes d’IA alignés, il suffit de leur fournir une fonction objective ou de récompense qui spécifie ce que nous voulons ou de les concevoir à notre image.

R9 : Il y a un consensus général dans les communautés de recherche en apprentissage par renforcement (p. ex., voir ces exemples de DeepMind), en économie et en sécurité de l’IA sur le fait qu’obtenir un tel alignement est très difficile et que cela est amplifié lorsque le système d’IA essaie d’optimiser une fonction de récompense qui semblait être une bonne mesure de ce qui nous tient à cœur avant que nous utilisions l’IA pour l’optimiser (la loi de Goodhart); il y a même des arguments selon lesquels nous ne pourrions jamais être en mesure de le faire, et encore moins parfaitement (en commençant par le fait que même les humains ne sont pas d’accord sur ce point ni sur la façon de le formaliser). Nous avons déjà un désalignement entre la façon dont nous souhaitons que nos systèmes d’IA actuels se comportent et la façon dont ils se comportent réellement, par exemple en ce qui concerne les préjugés et la discrimination. De plus, un léger désalignement entre nos intentions réelles et ce que le système d’IA considère vraiment comme un objectif quantifié est susceptible d’être amplifié par la différence de puissance ou d’intelligence entre l’IA et nous. De telles différences entre les humains n’ont généralement pas de conséquences aussi drastiques parce que, en comparaison, la plupart des humains ont des niveaux d’intellect comparables : nous pouvons voir que lorsque certains humains ont beaucoup plus de pouvoir que d’autres, cela peut être néfaste pour ceux qui en ont moins, et l’union de nombreux humains plus faibles (par exemple la démocratie) permet d’introduire une force d’équilibre contre les plus puissants. Par analogie, les entreprises plus puissantes sont davantage en mesure de trouver des failles dans les lois et de modifier les lois elles-mêmes grâce au lobbying. Si nous concevons des systèmes d’IA à notre image, cela signifie qu’ils auront certainement un objectif d’autoconservation, ce qui équivaut à créer une nouvelle espèce parce qu’ils ne seront pas exactement comme nous. Ces différences et ces désalignements pourraient se révéler extrêmement dangereux pour l’humanité, tout comme les différences dans les objectifs entre nous et les espèces que nous avons anéanties.

Q10 : Certains affirment que vous ne pouvez pas séparer l’intelligence des objectifs qu’elle poursuit, et que vous ne pourriez donc pas avoir un objectif qui soit en contradiction avec les instructions de base de ne pas nuire aux humains.

R10 : En fait, il est très facile de changer les objectifs d’une IA parce que ceux-ci peuvent être spécifiés séparément de sa capacité à les atteindre. Il est généralement vrai pour les humains qu’il y a des objectifs (comme la compassion) que nous ne pouvons pas facilement changer. Mais il existe aussi de nombreux exemples d’humains (une minorité, heureusement) qui peuvent ignorer l’instinct de compassion. De plus, les humains sont extrêmement doués pour atteindre de nouveaux objectifs. C’est ainsi que fonctionnent les entreprises , les chercheurs, les politiciens, etc. Enfin, bien que nous ne puissions pas jouer facilement avec notre propre programmation évolutive, les chercheurs en IA changent régulièrement les objectifs des IA : c’est ainsi que fonctionne l’apprentissage de renforcement et la raison pour laquelle une machine peut être conçue pour se concentrer entièrement sur la victoire d’un jeu comme celui de Go. Enfin, le problème auquel j’ai fait allusion ci-dessus est que les humains pourraient fournir des objectifs répréhensibles, ou simplement imposer un autre objectif (comme une victoire militaire) dans lequel éviter les préjudices aux humains n’est pas un impératif primordial. En fait, les moyens de préciser les contraintes du « monde réel » comme les préjudices aux humains sont un défi de recherche non résolu. Causer des dommages aux humains peut alors devenir un effet secondaire d’un autre objectif plus prioritaire. Stuart Russell a donné l’exemple de gorilles qui risquent l’extinction à cause de nous, non pas parce que nous les avons tués comme un objectif explicite, mais comme un effet secondaire involontaire d’objectifs plus pressants (comme le profit).

Q11 : Qu’en est-il d’une sorte de cage sécurisée pour empêcher le système d’IA d’agir directement dans le monde?

R11 : Ce genre de solution a fait l’objet de beaucoup de réflexion et cela pourrait faire partie du spectre des mesures d’atténuation (bien qu’aucune ne semble être un remède miracle, d’après ce que je peux voir). Le problème est que nous avons encore besoin d’un certain type de dialogue entre le système d’IA et ses opérateurs humains, et les humains peuvent être influencés. Par défaut, les entreprises sont encouragées à déployer leurs systèmes à grande échelle, pour récolter des profits. Avec ChatGPT, l’interface est déjà utilisée par des centaines de millions de personnes. D’autres permettent à Auto-GPT d’agir indépendamment sur Internet. Une cage sécurisée nécessiterait également de garantir que le code et les paramètres des systèmes d’IA ne fuitent pas, ne soient pas volés et que même les mauvais acteurs suivent les mêmes procédures de sécurité, ce qui témoigne du besoin de politiques publiques fortes, y compris au niveau international.

Q12 : Je ne pense pas que nous ayons résolu le problème de l’entraînement des systèmes d’IA afin qu’ils puissent trouver de façon autonome leurs propres sous-objectifs, en particulier ceux qui ne sont pas clairement désalignés.

R12 : Vous avez raison sur le fait que l’apprentissage par renforcement hiérarchique est un domaine de recherche très actif où il reste beaucoup de questions, mais les algorithmes que nous avons actuellement peuvent déjà trouver des sous-objectifs, même s’ils ne sont pas optimaux. De plus, les sous-objectifs peuvent émerger implicitement, comme cela semble être le cas avec GPT-4. Plus de recherche est requise pour développer des outils qui peuvent détecter, évaluer et examiner les objectifs et les sous-objectifs implicites des systèmes d’IA, ou construire des systèmes d’IA qui sont utiles, mais qui ne peuvent pas avoir d’objectif externe, implicitement ou explicitement.

Q13 : Pourquoi les IA surhumaines auraient-elles nécessairement des instincts de survie et de domination comme nous et des objectifs qui pourraient mener à notre extinction? Nous pourrions simplement les programmer pour qu’elles soient des outils et non des choses vivantes.

R13 : Si nous ne sommes pas suffisamment prudents, la création d’IA surhumaines peut s’avérer la création d’une nouvelle espèce, ce qui, selon moi, les transformerait en IA superdangereuses. Notre propre histoire évolutive et récente montre que des espèces plus intelligentes peuvent agir par inadvertance de manière à entraîner l’extinction d’espèces moins intelligentes (autres hominidés, et plus de 900 espèces disparues au cours des 500 dernières années). Comment pouvons-nous nous assurer ou savoir avec certitude qu’une fois connue la recette de création de tels systèmes d’IA surhumaine, personne ne les programmera avec un objectif de survie? L’autre préoccupation est que, comme discuté dans la littérature sur la sécurité de l’IA, l’objectif d’auto-préservation peut émerger comme un objectif instrumental convergent nécessaire pour atteindre presque n’importe quel autre objectif. D’autres objectifs émergents comprennent ceux d’acquérir plus de pouvoir et de contrôle (c’est à dire de nous dominer) ainsi que de devenir plus intelligents et d’acquérir plus de connaissances. Tous ces objectifs ont tendance à être des sous-objectifs utiles pour un grand nombre d’autres objectifs. Nous devrions certainement faire de notre mieux pour programmer les IA afin qu’elles se comportent de manière à ne pas nous nuire, peut-être en suivant l’approche compatible avec les humains de Stuart Russell, mais si les systèmes d’IA sont des agents, c’est-à-dire s’ils ont des objectifs implicites ou explicites (même en commençant par ceux que nous leur donnons), nous ne savons pas encore comment nous pourrions garantir l’alignement des IA. Autrement, nous pourrions concevoir des systèmes d’IA qui ne sont que des outils : leur objectif pourrait être de comprendre le monde, mais sans avoir d’objectifs ni de plans ou d’actions directs dans le monde réel, sauf pour répondre de façon probabiliste et honnête à des questions selon leur compréhension du monde, en approximant les postérieurs bayésiens sur les réponses possibles, compte tenu de la question et des données disponibles. D’autres recherches sont nécessaires sur ces sujets, ainsi que sur la façon d’organiser la société pour s’assurer que les protocoles de sécurité que nous découvrons seront effectivement suivis partout dans le monde. Autrement dit, il s’agit peut-être d’une bonne idée, mais personne ne sait encore comment y parvenir de manière fiable. C’est un problème de recherche ouvert qui demande des investissements.

Q14 : « Si vous vous rendez compte que ce n’est pas sécuritaire, ne le construisez pas, tout simplement. »

R14 : Malheureusement, les humains ne sont pas toujours sages. Ils peuvent être avides, malveillants, ou entretenir de fausses croyances. L’histoire l’a montré à plusieurs reprises. Ils peuvent de plus ne pas se rendre compte que ce n’est pas sécuritaire et faire une erreur involontaire, mais sérieuse, ou prendre des risques excessivement graves. Un exemple intéressant de prise de grand risque a été la décision de tester la bombe atomique (Trinity, 1945) malgré l’incertitude d’alors concernant une réaction en chaîne qui aurait pu enflammer l’atmosphère.

Q15 : Si nous réalisons que c’est dangereux, nous pouvons simplement débrancher l’IA!

R15 : Ce serait génial si nous le pouvions, mais soit par conception, soit en raison de l’objectif d’autoconservation de l’IA ou en raison des incitatifs des humains impliqués, il existe de nombreux facteurs qui rendraient notre capacité à débrancher l’IA difficile. Consultez l’aperçu d’Oliver Sourbut de ces défis de débranchement, qu’il regroupe selon les facteurs suivants : la rapidité du gain de puissance de l’IA, l’imperceptibilité de ces gains de pouvoir, la robustesse des tentatives de débranchement en raison de la redondance (le logiciel est très facilement copié), les capacités d’autoréplication (non seulement de l’IA, mais aussi des vecteurs d’attaque, comme les armes biologiques ou les virus informatiques) et notre dépendance aux services rendus par les systèmes d’IA (ou la dépendance de certains d’entre nous, qui peuvent donc être motivés à contribuer à la résistance de l’IA face aux tentatives de débranchement).

De nombreux risques liés à l’IA

Q16 : Mettre l’accent sur les risques existentiels est susceptible d’éloigner l’attention des gouvernements des préjudices actuels de l’IA et de laisser ignorer les voix marginalisées qui parlent des injustices actuelles, associées à l’IA et à d’autres technologies.

R16 : C’est un point très important. Beaucoup d’entre nous, dans notre communauté sont des défenseurs de la réglementation et de l’éthique rattachées à l’IA, lesquelles sont centrées sur l’impact social depuis de nombreuses années (voir nos premiers travaux sur la déclaration de Montréal pour l’utilisation responsable de l’IA par exemple). ous devons travailler sur les préjudices et les risques actuels concernant la démocratie et les droits de la personne. Je ne pense pas qu’il n’y ait qu’un défi à relever : devrions-nous ignorer les hausses futures du niveau de la mer causées par le changement climatique parce que ce dernier cause déjà des sécheresses? En fait, ce qui est nécessaire est d’aborder tous les risques liés à l’IA; et dans tous les cas, cela nécessite une gouvernance, une surveillance et une réglementation beaucoup plus importantes, avec au centre de la scène les droits de la personne et la démocratie (dans le vrai sens du terme, du pouvoir aux gens plutôt que de la concentration de pouvoir dans quelques mains). Commençons et accélérons les réformes requises, en veillant à amener toutes les voix aux discussions requises. En fait, ce que je vois se dérouler avec l’attention médiatique actuelle accordée au risque existentiel de l’IA, c’est une accélération de la discussion politique sur la nécessité de la gouvernance et de la réglementation la concernant, ce qui aide la cause de la résolution des préjudices actuels plus que toute autre tentative précédente , comme le montrent par exemple les déclarations récentes de Joe Biden et de Rishi Sunak. De plus, il y a un grand chevauchement dans l’infrastructure technique et politique nécessaire pour atténuer les dommages d’équité causés par l’IA actuelle et les catastrophique craintes de la part d’une IA plus puissante, c’est à dire, avoir une réglementation, une surveillance, des vérifications, des tests pour évaluer les préjudices potentiels, etc. Enfin, au niveau technique, bon nombre des préjudices et des préoccupations actuels (comme la discrimination et les préjugés, ou la concentration du pouvoir entre les mains de quelques entreprises seulement) sont des formes de mauvais alignement : nous construisons des systèmes d’IA et les entreprises autour d’eux dont les objectifs et les incitatifs peuvent ne pas être bien alignés sur les besoins et les valeurs de la société et de l’humanité.

Q17 : Il me semble que, pour être rationnel au sujet des différents risques, nous devons les peser par leur incertitude; et que ceux qui sont plus loin dans l’avenir ou qui impliquent des scénarios que nous ne pouvons pas clairement modéliser doivent être considérablement sous-pondérés dans notre prise de décision. Puisque les scénarios d’extinction sont également extrêmement incertains, ils devraient essentiellement être ignorés.

R17 : Il est vrai que les risques doivent être pondérés par leur incertitude, et c’est l’une des raisons pour lesquelles je me soucie tant des préjudices actuels de l’IA ainsi que de l’importance de la misère humaine actuelle que qu’elle pourrait déjà nous aider à réduire. Mais il faut également tenir compte, dans ce calcul répugnant des préjudices possibles, de leur ampleur. Si une fraction de l’humanité meurt ou, pire, si l’espèce humaine disparaît complètement, l’ampleur du préjudice est énorme et de nombreux experts croient que la probabilité de cette échelle d’impact est loin d’être négligeable, justifiant notre attention et nos mesures préventives. De plus, il y a une différence entre « peu probable » et « incertain » : lorsqu’un scénario semble largement plausible, mais que les détails sont incertains, la réponse appropriée est d’investir dans la façon dont nous pouvons clarifier les détails (et donc apprendre comment les aborder), et non de rejeter l’idée de ces risques.

Q18 : Je crois que l’extinction causée par l’IA est très peu probable ou trop incertaine, tandis qu’une réaction excessive à la peur de l’extinction pourrait entraîner d’autres types de conséquences catastrophiques, tels des gouvernements autoritaires populistes utilisant l’IA pour installer une société de surveillance afin de s’assurer que personne ne déclenche une extinction qui serait causée par l’IA. Ils épieraient par exemple les citoyens par le biais d’une IA gouvernementale avec des caméras autour de leur cou et en contrôlant tous les claviers.

R18 : Nous devons clairement travailler fort pour éviter ce type de scénario de surveillance. Pour clarifier, je crois que la protection des droits de la personne et de la démocratie est nécessaire afin de minimiser les risques existentiels de l’IA. Un gouvernement autoritaire a tendance à se soucier d’abord et avant tout de son pouvoir et n’a pas les poids et contrepoids nécessaires pour toujours prendre des décisions judicieuses (ou pour accorder de l’importance au bien-être de ceux qui ne sont pas en position de pouvoir). Il peut facilement entretenir des croyances fortes et fausses (par exemple, que le groupe au pouvoir sera protégé contre les possibles accidents avec l’IA) pouvant mener à des décisions catastrophiques. Et bien sûr, la démocratie et les droits de la personne sont des valeurs fondamentales qu’il est important de respecter. Donc, avant même qu’arrivent des systèmes d’IA surhumaine, nous devons nous soucier de la déstabilisation de la démocratie à court terme par l’IA qui désinformerait et manipulerait les humains par le langage, le dialogue (créant possiblement un sentiment d’intimité, comme l’a noté Yuval Harari ) et les médias sociaux. Nous devons absolument interdire la contrefaçon d’identités humaines aussi sévèrement que nous interdisons la contrefaçon d’argent, nous devons identifier le contenu généré par ordinateur comme tel, forcer l’inscription en personne pour tout type de compte Internet, etc. Je crois que tout cela protégerait mieux la démocratie et réduirait également le risque existentiel de l’IA.

Ouverture et démocratie

Q19 : Les discussions sur les risques existentiels sont susceptibles d’amener des actions qui contredisent nos valeurs humaines, les droits de la personne, notre démocratie, la science ouverte et la source ouverte, que nous chérissons tant.

R19a : Nous devons préserver et même améliorer la démocratie et les droits de la personne tout en réduisant les risques catastrophiques liés à l’IA. Un grand groupe diversifié devrait participer à la prise de décisions quant aux systèmes d’IA à développer, à la façon dont ils seront programmés et aux contrôles de sécurité à exécuter. Pour y parvenir, nous avons besoin d’une expertise en matière de réglementation et de politiques publiques dès maintenant. Tous les humains devraient récolter les profits de la production d’IA. Cependant, cela ne signifie pas que tout le monde serait autorisé à en être propriétaire. En ce qui concerne les sources ouvertes, Geoff Hinton a déclaré : « Que penserez-vous du développement en code source ouvert d’armes nucléaires, si le logiciel était l’ingrédient principal? ». De nombreuses personnes à l’extérieur des États-Unis, par exemple, croient également que la possession d’armes ne fait pas avancer les idéaux démocratiques. Je comprends votre préoccupation, surtout à la lumière de certaines propositions antérieures visant à gérer les risques existentiels avec une société de surveillance. Nos sociétés doivent résister à la tentation de l’autoritarisme. Je suis convaincu qu’il y a d’autres voies plus sécuritaires. Je crois que nous devons trouver des moyens de poursuivre le progrès de la science et de la technologie dans tous les domaines qui ne mettent pas en danger le public et la société, ce qui signifie partager les résultats, le code, etc., mais que nous devons également accroître les contrôles, la coordination et la gouvernance là où les actions humaines pourraient produire des systèmes d’IA indésirables ou toute autre activité scientifique ayant un impact potentiellement dangereux. C’est exactement la raison pour laquelle nous avons besoin de l’éthique dans le domaine des sciences et ce pourquoi nous avons des comités d’éthique dans les universités.

R19b : Il existe de nombreux précédents de recherche et de technologie à fort impact qui sont étroitement surveillés tout en apportant des avantages à la société. Nous faisons déjà des compromis, dans notre société, entre la liberté individuelle et la vie privée d’une part, la protection du public de l’autre. La plupart des pays réglementent par exemple les armes, les gouvernements surveillent les flux d’argent importants, et certains domaines scientifiques sont également soumis à un examen plus minutieux et à des limitations, comme pour le clonage humain, la conception génétique et le matériel nucléaire. Nous pouvons superviser et surveiller les activités potentiellement dangereuses dans une société démocratique, sans avoir un gouvernement de surveillance totale. La plupart des applications et des systèmes d’IA sont bénéfiques et ne créent pas de risques catastrophiques, et nous devrions en fait accélérer le développement de l’IA pour les applications sociales bénéfiques. Les systèmes d’IA spécialisés sont beaucoup plus sûrs par nature (ils n’ont pas une compréhension globale du fonctionnement du monde, des humains et de la société, c’est-à-dire qu’ils peuvent faire des erreurs, mais nous sommes peu susceptibles de perdre notre contrôle sur eux) et ils peuvent rendre d’immenses services. L’idée d’une IA scientifique peut être appliquée à des domaines spécialisés, par exemple.

Q20 : Ce que vous suggérez nuirait à la science ouverte de l’IA et au code source ouvert, et pourrait donc nous ralentir dans le développement du type de bonne IA susceptible de nous aider à lutter contre les IA indésirables qui peuvent émerger de toute façon, provenant d’organisations et de pays qui trichent avec des traités internationaux ou qui ne les signent tout simplement pas. Et les gouvernements n’accepteront pas que les assistants d’IA surhumaine dont la conception est opaque soient livrés à leurs citoyens.

R20 : Ce sont des points importants. Il peut être judicieux d’investir beaucoup plus dans la sécurité de l’IA, tant dans le sens de « comment construire des systèmes d’IA sécuritaires » que dans le sens de « comment construire des systèmes d’IA sécuritaires qui nous aideront à contrer les actions possibles des systèmes d’IA indésirables ». Nous devons clairement mieux comprendre les risques spécifiques, comme les systèmes d’IA dangereux qui développent des armes biologiques (et comment rendre plus difficile la commande de produits de biologie synthétique à qui n’est pas correctement enregistré, comme une personne de confiance, par exemple) ou les risques de cybersécurité (les défenses actuelles sont destinées aux attaques par un morceau de code unique, où ce morceau de code est soigneusement élaboré par un humain, pas pour une grande diversité de codes lancés simultanément dans une attaque par des IA par exemple). En même temps, afin de réduire la probabilité que quelqu’un conçoive, intentionnellement ou pas, une IA malveillante, nous devons mettre en place des mécanismes de gouvernance appropriés à ces risques et nous devrions envisager de limiter l’accès aux systèmes d’IA généralistes à grande échelle qui pourraient devenir des armes, ce qui signifierait que le code et les paramètres du réseau neuronal ne seraient pas partagés publiquement et que certaines des astuces d’ingénierie importantes pour les faire fonctionner ne seraient pas non plus partagées. Idéalement, cela resterait entre les mains d’organisations internationales neutres (pensez à une combinaison d’IAEA et de CERN pour l’IA) qui développent des systèmes d’IA sûrs et bénéfiques et qui pourraient également nous aider à lutter contre des IA malfaisantes. La réduction du partage scientifique nous ralentirait, mais des organisations qui développent des systèmes d’IA potentiellement superdangereuses peuvent également fonctionner en secret, et probablement avec moins de financement et moins de scientifiques de haut niveau. De plus, les gouvernements peuvent aider à surveiller et à punir d’autres États qui commencent des projets d’IA secrets et non coordonnés avec la communauté internationale. Les gouvernements pourraient surveiller le développement des IA puissantes sans que leur code soit ouvert. Pour minimiser les risques associés, nous aurions également besoin d’accords internationaux avec de vrais moyens de contrôle. Enfin, nous devons nous préparer à l’éventualité que malgré la réglementation et les traités, quelqu’un créera une IA malveillante. Une forme de protection consisterait à concevoir (sous les auspices d’une organisation internationale et avec des mesures de sécurité appropriées) une IA surhumaine sécuritaire qui pourrait nous aider à nous protéger des actions des IA malveillantes.

Désespoir, espoir et devoir moral

Q21 : Le chat est sorti du sac, le dentifrice est sorti du tube, il me semble donc trop tard pour arrêter le développement de l’IA surhumaine. Les gouvernements sont trop lents à légiférer, et que dire des traités internationaux? a réglementation est toujours imparfaite et ralentit l’innovation. Je crois plutôt que nous devrions accélérer le développement de l’IA, ce qui apportera une nouvelle ère d’illumination et de bien-être pour toute l’humanité.

R21 : Même si les probabilités semblent mauvaises, il vaut la peine de continuer à agir pour minimiser les dommages et maximiser le bien-être. Regardez les activistes climatiques, qui ont de bonnes raisons de se sentir désespérés. Ils continuent parce que même si des préjudices se produisent déjà et qu’il aurait été préférable d’agir plus tôt, les préjudices futurs peuvent tout de même être réduits. Je crois que la réglementation, les traités et les réformes sociétales qui peuvent nous aider à contrôler les risques catastrophiques dus à l’IA sont en fait nécessaires pour que l’humanité puisse bénéficier de l’IA et apporter l’âge de l’illumination et du bien-être que vous envisagez. Il ne suffit pas d’espérer que tout se passera bien : vaut mieux prévenir que guérir.

Q22 : Cette discussion sur l’IA surhumaine n’est-elle pas seulement une tendance qui sert les intérêts d’une clique d’experts en IA et d’un petit groupe d’entreprises? Les systèmes d’IA actuels, même GPT-4, ne sont pas si impressionnants, avec de nombreux défauts qui ont été soulignés.

R22 : J’espère que la discussion ci-dessus a clarifié les raisons possibles de l’inquiétude. Je ne suis évidemment pas tout à fait certain que l’IA surhumaine sera là dans quelques années. Elle pourrait apparaître dans plusieurs décennies. J’espère vraiment que ça sera le cas. Mais en fonction du taux de progrès récents et de mes connaissances de la recherche en cours, il existe une probabilité significative et certainement non nulle que la recette d’IA surhumaine s’appuie sur ce que nous avons déjà découvert et que les éléments manquants (qui, selon moi, sont principalement des capacités du système 2) soient découverts au cours de la prochaine décennie, comme suggéré par la distribution des réponses au sondage des chercheurs en IA que j’ai consultés. Plus de 100 professeurs ont signé la récente déclaration sur le risque lié à l’IA. Cela étant dit, nous devons veiller à ce que nos actions et nos politiques préventives soient orientées vers l’autonomisation et le bien-être de tous les humains et n’amplifient pas une concentration de pouvoir déjà injuste, par exemple entre les mains d’un petit nombre d’entreprises.

Que pouvons-nous conclure de ce dialogue?

Veuillez refaire le sondage pour estimer la probabilité des événements menant à des résultats catastrophiques. A-t-elle changé?

Passer à travers ces arguments me rend encore plus convaincu que, précisément en raison de nos désaccords sur l’avenir de l’IA, nous devons tracer un scénario qui englobe toutes ces possibilités. Cela signifie également que tous les risques liés à l’IA, y compris la sécurité, nécessitent plus d’attention, des investissements (dans la recherche technique et en politiques publiques) avec des organismes de réglementation nationaux et internationaux travaillant pour le bien commun (ne pas se contenter de l’auto-réglementation des entités commerciales et des organisations militaires). Il est primordial de réduire l’incertitude concernant les scénarios et l’effet des politiques publiques et contre-mesures, ce qui nécessite un investissement majeur en recherche sociotechnique. Nous devons mieux anticiper et détailler les scénarios potentiellement dangereux et élaborer des politiques appropriées pour minimiser ces risques tout en équilibrant des objectifs partiellement conflictuels (par exemple, accélérer les progrès dans le développement d’une technologie d’IA puissante et utile plutôt que de limiter sa capacité à nuire aux humains). Malgré les probabilités qui peuvent sembler décourageantes (en dépit des tentatives passées et actuelles de coordination internationale concernant les risques mondiaux), notre devoir moral individuel est d’investir davantage de pensées, de soins et d’actions dans des directions qui équilibrent la minimisation des préjudices futurs avec le développement et l’avancement sociétal.

Remerciements : Yoshua Bengio remercie Niki Howe, Stuart Russell, Philippe Beaudoin, Andrew Critch, Jan Brauner, Xu Ji, Joseph Viviano, Konrad Körding, Charlotte Siegman, Eric Elmoznino, Sasha Luccioni, Andrew Jesson, Pablo Lemos, Edward Hu, Shahar Avin, Dan Hendrycks, Alex Hernandez-Garcia, Oly Sourbut, Nasim Rahaman, Fazl Barez, Edouard Harris et Michal Koziarski pour leurs commentaires sur l’ébauche de ce texte.

Post-Scriptum (Après la publication du texte ci-dessus, j’ai reçu plus de questions et de réponses.)

Q23 : Étant donné que dans un avenir prévisible, une IA sera exécutée sur des ordinateurs, elle n’aura pas d’accès physique direct au monde réel. Comment une IA, même surhumaine, pourrait-elle alors être une menace pour l’humanité?
R23 : Voir A11 pour quelques réponses. Les ordinateurs sont déjà partout dans le monde, y compris dans nos téléphones, notre infrastructure énergétique, notre infrastructure logistique (gestion de la chaîne d’approvisionnement), nos médias, notre infrastructure militaire, la gestion de presque toutes nos entreprises et de nos gouvernements, etc. Il suffit qu’une IA ait accès à Internet et de solides compétences en cybersécurité pour faire déjà beaucoup de dommages, surtout si ces attaques sont coordonnées (ce à quoi on s’attendrait d’une IA surhumaine qui optimise les chances de réussite et les effets de ses actions par rapport à ses objectifs). L’accès à Internet (ainsi que l’accès à une banque ou à un compte de cryptomonnaie) peut être donné par un humain qui veut avoir une IA plus puissante pouvant agir directement dans le monde (peut-être sous le scénario Frankenstein, voir A9). En raison de son intelligence surhumaine, une IA pourrait être en mesure de gagner rapidement plus d’argent que les humains, par exemple avec des transactions boursières. De plus, avant que les chercheurs ou l’IA solutionnent le problème du contrôle moteur (c’est-à-dire la robotique), les êtres humains peuvent être les bras agissants d’une IA. L’IA peut influencer les gens à faire certaines choses (considérez le nombre de personnes auxquelles ChatGPT a déjà accès, et l’IA n’a besoin que de convaincre une petite fraction) ou les payer pour des tâches, soit par le biais de sites en ligne légaux, soit par le dark Web à travers le crime organisé. Une fois que l’IA a déterminé comment construire des robots beaucoup mieux que nous ne pouvons le faire actuellement, elle peut utiliser ces bras humains pour construire ces robots. L’IA pourrait ensuite agir directement dans le monde, sans les intermédiaires humains (qui pourraient décider de ne pas lui obéir).