Borner la probabilité qu'une IA cause des dommages pour établir un garde-fou

À mesure que nous progressons vers des systèmes d’IA plus puissants, il devient urgent de mieux comprendre les risques, idéalement d’une manière mathématiquement rigoureuse et quantifiable, et de recourir à ces connaissances pour les atténuer. Existe-t-il un moyen de concevoir des systèmes d’IA puissants basés sur des méthodes d’apprentissage automatique qui offriraient des garanties de sécurité probabilistes, c’est-à-dire des systèmes pour lesquels on peut prouver qu’il est peu probable qu’ils entreprennent des actions néfastes?

Les évaluations et les bancs d’essai actuels en matière de sécurité de l’IA testent l’IA dans les cas où elle pourrait mal se comporter, par exemple en fournissant des réponses qui pourraient donner lieu à une utilisation néfaste et dangereuse. Cela est utile et devrait être exigé par la loi dans le cadre d’une réglementation flexible, mais ce n’est pas suffisant. Ces tests donnent une réponse fiable seulement s’ils détectent un mauvais comportement: nous savons alors qu’il faut mitiger le problème. Par contre, s’ils ne lèvent pas ce drapeau rouge, il est tout de même possible que nous nous retrouvions devant un cas d’IA dangereuse, d’autant plus que les conditions de test peuvent être différentes des conditions de déploiement et que les individus ou groupes malfaiteurs (ou une IA hors de contrôle) peuvent faire preuve d’une forme de créativité que les tests n’ont pas prise en compte. Plus inquiétant encore, les systèmes d’IA pourraient simplement se rendre compte qu’ils sont testés et avoir une incitation temporaire à se comporter de manière appropriée pendant les tests. Le problème réside en partie dans le fait que ces tests sont des vérifications ponctuelles. Ils tentent d’évaluer le risque général associé à l’IA en la testant sur des cas particuliers. Une autre option consisterait à évaluer le risque au cas par cas et à rejeter les requêtes ou les réponses considérées comme potentiellement contraires aux spécifications de sécurité.

En ayant donc pour but à long terme d’obtenir une garantie probabiliste qui s’appliquerait dans tous les contextes, nous considérons dans ce nouvel article (voir la référence et les co-auteurs ci-dessous) l’objectif d’estimer une borne supérieure dépendante du contexte sur la probabilité d’enfreindre une spécification de sécurité donnée. Une telle évaluation du risque devrait être effectuée au moment de l’exécution, pour chaque requête à l’IA, pour constituer un garde-fou contre les actions dangereuses de l’IA.

Il y a en général plusieurs hypothèses ou scénarios plausibles qui peuvent expliquer les données passées ou anticiper différemment des événements futurs. Compte tenu du fait que ces différentes hypothèses pourraient prédire des résultats très différents, et parce que l’IA ne sait pas quelle hypothèse est la bonne, une décision sécuritaire devrait considérer l’hypothèse la plus alarmante parmi celles qui sont plausibles. Cette idée nous permet de dériver des bornes mathématiques sur la probabilité d’action néfaste. Ces bornes pourraient être utilisées pour rejeter des actions potentiellement dangereuses. Nos principaux résultats impliquent la recherche algorithmique d’hypothèses prudentes mais plausibles, obtenues par une maximisation qui comprend des postérieurs bayésiens sur les hypothèses et en supposant un a priori suffisamment large. Nous considérons deux formes de ce résultat, dans le cas iid couramment considéré (où les exemples arrivent indépendamment les uns des autres, d’une distribution qui ne change pas avec le temps) et dans le cas plus ambitieux mais plus réaliste non iid. Nous présentons ensuite des simulations expérimentales dont les résultats sont cohérents avec la théorie, dans des environnements simples et simulés où les calculs bayésiens peuvent être effectués avec précision, et nous concluons en évoquant les problèmes ouverts principaux pour transformer ces résultats théoriques en garde-fous pratiques pour l’intelligence artificielle.

Can a Bayesian Oracle Prevent Harm from an Agent? par Yoshua Bengio, Michael K. Cohen, Nikolay Malkin, Matt MacDermott, Damiano Fornasiere, Pietro Greiner et Younesse Kaddar, dans arXiv:2408.05284, 2024.

Cette publication fait partie d’un programme de recherche plus large (dont les premières réflexions ont déjà été partagées dans ce billet de blogue antérieur) que j’ai entrepris avec des collaborateurs et qui pose la question suivante : si nous pouvions tirer parti des avancées récentes en matière d’apprentissage automatique et d’inférence probabiliste amortie avec des réseaux neuronaux pour obtenir de bonnes estimations bayésiennes des probabilités conditionnelles, pourrions-nous obtenir des garanties quantitatives concernant la sécurité des actions proposées par une IA? La bonne nouvelle est qu’avec l’augmentation des ressources de calcul, il est possible de faire converger ces estimateurs vers les véritables postérieurs bayésiens. Notez que ces bornes convergent asymptotiquement, mais en fonction de la quantité de calculs, pas de la quantité de données. En d’autres termes, alors que dans la plupart des scénarios d’IA catastrophiques, les choses empirent à mesure que l’IA devient plus puissante, ces approches peuvent bénéficier de l’augmentation des ressources de calcul pour accroître la sécurité (ou obtenir des bornes de sécurité plus rigoureuses).

L’article ci-dessus laisse en suspens un grand nombre de questions complexes, et nous avons besoin que d’autres chercheurs s’y intéressent (voir l’article pour plus de détails et de références) :

Modérer la prudence excessive. Peut-on s’assurer de ne pas sous-estimer la probabilité d’un dommage sans pour autant la surestimer massivement?
Tractabilité de l’estimation a posteriori. Comment pouvons-nous estimer efficacement les postérieurs bayésiens requis? Pour des raisons de tractabilité de calcul, une réponse plausible reposerait sur l’inférence amortie, qui transforme l’estimation difficile de ces postérieurs en une tâche d’entraînement d’un réseau neuronal qui est un estimateur probabiliste, dont l’exécution est donc rapide. Des travaux récents sur l’inférence bayésienne amortie pour les modèles symboliques portent à croire que cela est possible.
Recherche efficace d’une théorie prudente. Comment pouvons-nous identifier efficacement une théorie prudente mais plausible qui délimite la borne supérieure du risque, étant donné que cela nécessite une optimisation au moment de l’exécution? Là encore, une réponse plausible consiste à s’appuyer sur l’inférence probabiliste amortie, par exemple en échantillonnant des théories à température basse, une technique utilisée depuis des décennies dans la littérature sur l’optimisation non convexe et plus récemment combinée avec des méthodes d’échantillonnage séquentiel amorti.
Spécification partielle de théories. Un autre problème est qu’une théorie explicative complète sera généralement trop volumineuse pour que les calculs de bornes et l’optimisation décrits ci-dessus soient suffisamment efficaces. Une autre solution consisterait à dériver des bornes qui ne nécessitent que des explications partielles, de la même manière que les humains racontent des « histoires » prudentes sur ce qui pourrait mal se passer dans des circonstances incertaines lorsqu’ils envisagent de prendre une décision potentiellement dangereuse.
Spécification de sécurité en langage naturel. Comment une spécification de sécurité fournie en langage naturel, comme dans le cas de l’IA constitutionnelle d’Anthropic, est-elle transformée en une variable aléatoire sur laquelle les probabilités conditionnelles peuvent être estimées? Il semble peu pratique de demander aux humains d’étiqueter un grand nombre de situations qui correspondent à la contrainte souhaitée. L’alternative proposée dans mon billet de blog de février consiste à apprendre à interpréter les énoncés en langage naturel comme des variables aléatoires formelles sur lesquelles le raisonnement causal probabiliste peut s’effectuer. L’ambiguïté du langage naturel peut alors être captée par l’IA en représentant une distribution sur les interprétations formelles du texte donné.

Effet de l’erreur d’approximation. Enfin, comme nous envisageons d’utiliser l’apprentissage automatique pour estimer la borne, nous devons tenir compte du fait qu’un prédicteur appris sera imparfait. Comment corriger de manière conservatrice les erreurs potentiellement dangereuses commises par ce prédicteur? Cela peut être particulièrement important si nous utilisons un réseau neuronal pour estimer les probabilités, étant donné qu’ils sont parfois sujets à un manque de robustesse et à des attaques adverses. Par exemple, comment nous assurer que l’agent qui propose les actions n’a pas appris à trouver des failles dans l’estimateur de risque?

Borner la probabilité qu’une IA cause des dommages pour établir un garde-fou