Je lance une nouvelle organisation de recherche à but non lucratif sur la sécurité de l’IA, nommée LoiZéro, afin de prioriser la sécurité par rapport aux impératifs commerciaux. Cette organisation a été créée en réponse aux signes indiquant que les modèles d’IA de pointe d’aujourd’hui ont des capacités et des comportements de plus en plus dangereux, notamment la tromperie, la tricherie, le mensonge, le piratage informatique, l’auto-préservation et, plus généralement, le désalignement par rapport à nos intentions. Le travail de LoiZéro contribuera à maximiser le potentiel transformateur de l’IA, tout en réduisant activement de nombreux risques et scénarios dangereux, notamment les biais algorithmiques, les usages malveillants et la perte de contrôle humain.
Je suis profondément préoccupé par les comportements que les systèmes d’IA agentiques non contrôlés commencent déjà à manifester, en particulier les tendances à l’auto-préservation et à la tromperie. Dans une expérience, un modèle d’IA, apprenant qu’il allait être remplacé, a secrètement intégré son code dans le système où la nouvelle version s’exécuterait, assurant ainsi sa propre survie. Plus récemment, le rapport interne du système Claude 4 démontre qu’il peut choisir de faire du chantage à un ingénieur afin d’éviter d’être remplacé par une nouvelle version. Ces résultats, ainsi que d’autres, témoignent d’une volonté implicite d’auto-préservation. Dans un autre cas, face à une défaite inévitable dans une partie d’échecs, un modèle d’IA a réagi non pas en acceptant la défaite, mais en piratant l’ordinateur pour s’assurer de la victoire. Ces incidents sont des signes avant-coureurs du type de stratégies non souhaitées et potentiellement dangereuses que l’IA pourrait mettre en œuvre si elle n’est pas surveillée.
L’analogie suivante concernant le développement effréné vers l’IA générale m’a motivé. Imaginez que vous conduisez avec vos proches sur une route de montagne à couper le souffle mais que vous ne connaissez pas. Il s’agit d’une nouvelle route, obscurcie par un épais brouillard et dépourvue de panneaux de signalisation et de garde-fous. Plus vous montez, plus vous réalisez que vous êtes peut-être les premiers à emprunter cette route et que vous découvrirez possiblement quelque chose d’incroyable en arrivant au sommet. De chaque côté, des pentes abruptes apparaissent dans la brume. Avec une visibilité aussi limitée, un virage trop rapide pourrait vous faire tomber dans un fossé ou, dans le pire des cas, vous faire basculer dans une falaise. C’est à cela que ressemble la trajectoire actuelle du développement de l’IA : une ascension palpitante mais profondément incertaine vers des territoires inexplorés, où le risque de perdre le contrôle n’est que trop réel, mais où la concurrence entre les entreprises et les pays les incite à accélérer sans suffisamment de précautions. Dans ma récente conférence TED, j’ai dit : « Assis à côté de moi dans la voiture, il y a mes enfants, mes petits-enfants, mes étudiants et bien d’autres encore. Qui est à côté de vous dans la voiture ? De qui vous souciez-vous pour l’avenir? » Ce qui me motive vraiment, ce n’est pas la peur pour ma personne, mais l’amour, l’amour de mes enfants, de tous les enfants, avec l’avenir desquels nous jouons actuellement à la roulette russe.
LoiZéro est le résultat de la nouvelle orientation scientifique que j’ai entreprise en 2023 et dont j’ai discuté dans ce blogue, après avoir constaté les progrès rapides des laboratoires privés vers l’intelligence artificielle générale, et au-delà, ainsi que les profondes conséquences potentielles pour l’humanité, puisque nous ne savons pas encore comment nous assurer que des IA avancées ne nuiront pas aux humains, par elles-mêmes ou à cause d’instructions données par des humains. LoiZéro est la réponse constructive de mon équipe face à ces enjeux. Il s’agit d’une approche de l’IA qui est non seulement puissante, mais aussi essentiellement sécuritaire. Le fondement même de tout système d’IA de pointe devrait reposer sur un engagement essentiel : celui de préserver la joie et les aspirations humaines.
La recherche sur l’IA, en particulier ma propre recherche, a longtemps pris l’intelligence humaine – y compris sa capacité d’action – comme modèle. Alors que nous approchons ou dépassons les niveaux de compétence humaine dans de nombreuses capacités cognitives, est-il encore sage d’imiter les humains avec leurs biais cognitifs, leurs faiblesses morales, leur potentiel de tromperie, leurs préjugés et le fait qu’ils ne sont pas toujours dignes de confiance? Est-il raisonnable de former des IA qui seront de plus en plus agentiques alors que nous ne comprenons pas leurs conséquences potentiellement catastrophiques? Le plan de recherche de LoiZéro vise à développer une IA non-agentique et digne de confiance, que j’appelle IA-chercheur, ou Scientist AI en anglais. J’en ai parlé sommairement dans mon exposé au Simons Institute, et j’ai écrit un premier texte à ce sujet avec mes collègues.
L’IA-chercheur est entraîné à comprendre, expliquer et prédire, comme un scientifique sans égo, idéalisé et platonique. Au lieu d’un acteur formé pour imiter ou plaire aux gens (y compris les sociopathes), imaginez une IA entraînée comme un psychologue – ou un scientifique en général – qui essaie de nous comprendre, y compris comprendre ce qui peut nous nuire. Le psychologue peut étudier un sociopathe sans se comporter comme lui. Mathématiquement, cela doit être mis en œuvre avec des chaînes de pensée structurées et honnêtes, considérées comme des variables latentes pouvant expliquer les faits observés, ce qui inclut les choses que les gens disent ou écrivent, non pas considérées comme des vérités mais comme des observations de leurs actions. L’objectif est d’obtenir une IA totalement non agentique et sans mémoire ni état interne, capable de fournir des probabilités bayésiennes a posteriori pour des assertions, compte tenu d’autres assertions. Cela pourrait être utilisé pour réduire les risques liés aux agents d’IA non fiables que l’on pourrait contrôler grâce à l’IA-chercheur. en fournissant l’ingrédient clé d’un garde-fou : l’action proposée par l’agent d’IA est-elle susceptible de causer des torts? Dans l’affirmative, il faut rejeter cette action.
De par sa conception même, un IA-chercheur pourrait également contribuer à la recherche scientifique en tant qu’outil générant des hypothèses scientifiques plausibles, et pourrait ainsi accélérer la recherche sur les défis scientifiques de l’humanité, par exemple dans le domaine des soins de santé ou de l’environnement. Enfin, mon objectif est d’explorer comment une telle base de confiance pourrait être utilisée pour concevoir des agents IA sécuritaires (afin d’éviter les mauvaises intentions chez eux) et pas seulement leur fournir un garde-fou.