Vers des IA comme chercheurs prudents avec des bornes de sécurité convergentes

Publié

27 février 2024

Par

Yoshua Bengio

Catégorie

IA sécuritaire

Que faut-il absolument éviter avec l'arrivée d'une IA superintelligente? Entre autres, des prédictions erronées exprimées avec assurance quant aux conséquences négatives que certaines actions pourraient entraîner. En particulier des conséquences catastrophiques. Surtout si ces actions peuvent mener à la fin de l'humanité.

Comment pouvons-nous concevoir une IA qui sera très performante et qui n'aura pas de conséquences négatives pour les êtres humains? À mon avis, nous devons répondre à cette question - contrôler l'IA pour qu'elle se comporte de manière vraiment sécuritaire - avant d'atteindre une IA avec des capacités similaires à celles des humains (intelligence artificielle générale ou AGI en anglais); et pour y arriver, nous avons besoin d’un effort de recherche de grande envergure. Les pressions économiques et militaires visant à accélérer la progression des capacités de l'IA continueront à se faire sentir même si nous n'avons pas encore trouvé le moyen de rendre une IA superintelligente sécuritaire. Et même si des réglementations et des traités sont mis en place pour réduire les risques, il est plausible que l'avidité humaine pour le pouvoir et la richesse et les forces qui alimentent la concurrence entre les humains, les entreprises et les États continueront d'accélérer les avancées technologiques dangereuses.

Pour l'instant, la science n'a pas de réponse claire à cette question concernant le contrôle de l'IA et la manière d'aligner ses intentions et son comportement aux valeurs choisies démocratiquement. C'est un peu comme dans le film « Don't Look Up ». Certains scientifiques débattent de la plausibilité de scénarios (par exemple, voir « Human Compatible ») dans lesquels un astéroïde destructeur pour la planète se dirige tout droit vers nous et pourrait frôler l'atmosphère. Dans le cas de l'IA, l'incertitude est plus grande, d'abord en ce qui concerne la probabilité de différents scénarios (notamment au sujet des politiques publiques futures) et l'horizon de temps, qui pourrait s'étendre sur des années ou des décennies selon les plus grands chercheurs en IA. Il n'existe pas non plus de méthode connue pour « dévier l'astéroïde », c'est-à-dire pour éviter les répercussions catastrophiques des futurs systèmes d'IA puissants. La survie de l'humanité est en jeu et nous devrions investir massivement dans ce problème scientifique, afin de comprendre cet astéroïde et de découvrir des moyens de le dévier. Compte tenu des enjeux, de notre responsabilité à l'égard de l'humanité, de nos enfants et petits-enfants, et de l'énormité du problème scientifique, je considère qu'il s'agit du défi le plus urgent à relever dans le domaine de l'informatique, qui déterminera notre bien-être collectif en tant qu'espèce. Résoudre ce problème pourrait bien sûr nous aider grandement à faire face à de nombreux autres défis, notamment les maladies, la pauvreté et le changement climatique, car l'IA a indéniablement des utilisations bénéfiques. À ce problème scientifique s'ajoute un problème politique qui mérite notre attention : comment faire en sorte que personne ne déclenche une catastrophe ou ne s'empare du pouvoir politique lorsque l'intelligence artificielle générale sera répandue, ou même lorsque nous nous en approcherons? Je vous invite à lire mon article sur ce sujet publié dans le Journal of Democracy.

Dans ce billet de blogue, je me pencherai sur une approche concernant le défi scientifique du contrôle et de l'alignement de l'IA. Compte tenu des enjeux, je pense qu'il est particulièrement important de se concentrer sur des approches qui nous donnent les garanties les plus fortes possibles en matière de sécurité de l'IA. Au cours de la dernière année, j'ai réfléchi à cette question et j'ai commencé à écrire à ce sujet dans ce billet de blogue de mai 2023 (voir également ma présentation dans le cadre de l'atelier Alignment Workshop en décembre 2023). Dans les prochaines lignes, j'exposerai quelques idées clés issues du développement de ma réflexion sur ce sujet et qui sont à l'origine de mon principal axe de recherche actuel. J'ai reçu du financement pour explorer ce programme de recherche et je suis à la recherche de chercheur·e·s motivé·e·s par le risque existentiel et disposant d'une expertise dans le domaine des mathématiques (en particulier sur les méthodes probabilistes), de l'apprentissage automatique (en particulier sur l'inférence amortie et les architectures de « transformers ») et du génie logiciel (en particulier pour les méthodes d'entraînement des réseaux neuronaux à grande échelle).

Le point de départ de ce programme de recherche sera la question suivante : si nous disposions d'une puissance de calcul suffisante, cela pourrait-il nous aider à concevoir une intelligence artificielle générale dont la sécurité est prouvée? Je discuterai brièvement ci-dessous d'une voie prometteuse qui permettrait d'approcher cet idéal, avec l'objectif crucial qu'à mesure que nous augmentons les ressources de calcul ou l'efficacité de nos algorithmes, nous obtenons de plus grandes garanties en matière de sécurité.

Tout d'abord, je souhaite justifier le choix de l'approche bayésienne - ou de toute autre approche qui tient compte de l'incertitude relative aux hypothèses explicatives des données et des expériences dont dispose l'IA. Notons que cette posture d'humilité épistémique ou l'admission comme étant plausible de toute hypothèse explicative qui n'est pas en contradiction avec les données est vraiment au cœur de la méthode scientifique et de l'éthique, et a motivé mon précédent billet sur les « IA comme chercheurs idéalisés ». Les méthodes du maximum de vraisemblance et de l'apprentissage par renforcement tendent à se concentrer sur une hypothèse explicative de ce genre (par exemple, sous la forme d'un réseau neuronal et de ses poids qui s'adaptent bien aux données ou qui maximisent bien les récompenses) alors qu'en fait, la théorie de la causalité nous dit que même avec un nombre infini d’observations (ne couvrant pas toutes les interventions possibles, ce qui ne serait pas physiquement possible), il peut exister plusieurs modèles de causalité compatibles avec les données, ce qui entraîne une ambiguïté quant à celui qui est le bon. Chaque modèle causal possède un graphe causal spécifiant quelle variable est la cause directe de quelle autre variable, et l'ensemble des graphes causaux compatibles avec une distribution s'appelle la classe d'équivalence de Markov. Le maximum de vraisemblance et l'apprentissage par renforcement sont susceptibles de choisir implicitement une hypothèse explicative H et d'ignorer la plupart des autres hypothèses plausibles (parce que rien dans leur objectif d'apprentissage n'exige qu'il en soit autrement). "Implicitement", parce que pour la plupart des méthodes d'apprentissage, y compris les réseaux neuronaux, nous ne savons pas comment avoir un accès explicite et interprétable aux composantes internes de H. S'il existe de nombreuses hypothèses explicatives pour les données (par exemple, différents réseaux neuronaux qui s'adapteraient également bien aux données), il est probable que H choisi par le maximum de vraisemblance ou l'apprentissage par renforcement ne sera pas la bonne ou un mélange contenant la bonne parce que n'importe quelle hypothèse plausible ou mélange d'hypothèses (et il pourrait y en avoir un nombre exponentiel) maximiserait la vraisemblance ou la récompense.

Pourquoi est-ce un problème, si nous disposons d'un réseau neuronal qui s'adapte bien aux données? Si nous ne tenons pas compte de l'existence d'autres hypothèses H, notre réseau neuronal se tromperait parfois en toute confiance, et cela pourrait avoir une incidence très importante sur notre survie. Les échecs graves hors distribution sont bien documentés en apprentissage automatique, mais pour l'instant, ils n'impliquent pas de décisions affectant le sort de l'humanité. Pour éviter les erreurs catastrophiques, envisageons maintenant une approche de gestion des risques, avec une IA qui représente non pas un seul H mais un grand ensemble d'entre elles, sous la forme d'une distribution générative sur les hypothèses H. Les hypothèses pourraient être représentées sous forme de programmes informatiques (sachant qu'ils peuvent représenter n'importe quelle fonction calculable). En ne limitant pas la taille et la forme de ces hypothèses, nous sommes certains qu'une explication correcte, tout au moins concevable par un être humain, est incluse dans cet ensemble. Toutefois, nous pouvons souhaiter attribuer une plus grande probabilité aux hypothèses les plus simples (selon le principe du rasoir d'Ockham). Avant de voir la moindre donnée, l'IA peut donc pondérer ces hypothèses en fonction de la longueur de leur description L dans un certain langage, afin de préférer les plus courtes, et former une distribution a priori bayésienne correspondante, P(H), par exemple, proportionnel à 2^-L. Ceci inclurait une hypothèse H* « correcte » ou, du moins, la meilleure hypothèse qu'un humain pourrait concevoir en combinant des éléments de théories que les humains ont exprimées et qui sont cohérentes avec les données D. Après avoir vu D, seule une infime partie de ces hypothèses resterait compatible avec les données, et je les qualifierai d'hypothèses plausibles. L'a posteriori bayésien P(H | D) quantifie ceci : P(H | D) est proportionnel à l'a priori P(H) multiplié par la capacité de H à expliquer D, c'est-à-dire la vraisemblance P(D | H). Le processus de découverte scientifique implique la formulation d'hypothèses H compatibles avec les données, et apprendre P(H | D) équivaudrait à entraîner une IA à devenir un bon chercheur qui produirait des articles scientifiques fournissant de nouvelles explications pour les données observées, c'est-à-dire des hypothèses plausibles. Notez que l'hypothèse correcte, H*, doit par définition faire partie des hypothèses plausibles, puisqu'il s'agit de la meilleure explication possible des données et que, grâce à l’hypothèse du rasoir d'Ockham, nous pouvons supposer qu'elle a une longueur de description raisonnable et définie. Nous supposerons également que les données utilisées pour former notre estimation a posteriori sont authentiques et ne sont pas systématiquement erronées (dans le cas contraire, l'estimation a posteriori pourrait mener à des conclusions complètement fausses).

Il existe un ensemble particulièrement important de concepts difficiles à définir en lien avec la sécurité de l'IA, qui caractérisent ce que je qualifierai de conséquences négatives ci-dessous. Je ne pense pas que nous devrions demander aux humains d'étiqueter des exemples de conséquences négatives, car il serait trop facile de surestimer ces données. Nous devrions plutôt utiliser les capacités d'inférence bayésienne de l'IA pour examiner toutes les interprétations plausibles des conséquences négatives compte tenu de l'ensemble de la culture humaine disponible dans D, éventuellement après avoir clarifié le type de conséquences négatives qui nous intéressent en langage naturel, par exemple tel qu'il est défini par un processus démocratique ou des documents tels que la merveilleuse Déclaration universelle des droits de l'homme des Nations unies.

Si une IA gardait en quelque sorte (implicitement, en pratique) la trace de toutes les hypothèses H plausibles, c'est-à-dire celles qui ont une forte probabilité sous P(H | D), alors il y aurait une manière parfaitement sécuritaire d'agir : si l'une des hypothèses plausibles prédisait qu'une action causerait des conséquences négatives importantes (comme la mort d'êtres humains), alors l'IA ne devrait pas choisir cette action. En effet, si l'hypothèse correcte H* prédit une conséquence négative, cela signifie qu'au moins une hypothèse H plausible prédit une conséquence négative. Si l'on arrive à la conclusion qu'une telle hypothèse H n'existe pas, on exclut donc la possibilité que cette action puisse entraîner des conséquences négatives, et l'IA peut donc l'exécuter en toute sécurité.

Sur la base de cette observation, nous pouvons diviser notre tâche en deux parties : premièrement, caractériser l'ensemble des hypothèses plausibles - il s'agit de l'a posteriori bayésien P(H | D) ; deuxièmement, étant donné un contexte c et une action proposée a, considérer les hypothèses plausibles qui prédisent une conséquence négative. Cela revient à rechercher une hypothèse H pour laquelle P(H, conséquence négative | a, c, D)>seuil. Si nous trouvons un tel H, nous savons que cette action doit être rejetée parce qu'elle n'est pas sécuritaire. Si nous ne trouvons pas une telle hypothèse, nous pouvons aller de l’avant avec l’assurance que les conséquences négatives sont très peu probables, et avec un niveau de confiance qui dépend de notre seuil et de la qualité de notre approximation.

Il convient de noter qu'avec davantage de données, l'ensemble des hypothèses compatibles avec les données (celles qui ont une probabilité élevée sous P(H | D)) aura tendance à se réduire - de manière exponentielle, en général. Cependant, l'espace des hypothèses étant infini au départ, nous pourrions toujours nous retrouver avec un problème difficile à résoudre sur le plan calculatoire. La recherche que je propose porte sur la manière dont nous pourrions bien approximer ces calculs de manière pratique. Nous pourrions tirer parti des progrès actuels et futurs de l'apprentissage automatique basés sur les travaux des dernières décennies, en particulier notre capacité à entraîner de très grands réseaux neuronaux pour minimiser un objectif d'entraînement. L'objectif est que les garanties de sécurité convergent vers des bornes probabilistes exactes concernant le risque, à mesure que la capacité de calcul disponible et l'efficacité de nos méthodes d'apprentissage augmentent.

La voie que je suggère est basée sur l'inférence amortie apprise, dans laquelle nous entraînons un réseau neuronal à estimer les probabilités conditionnelles requises. Nos meilleurs grands modèles de langues (ou LLM en anglais) peuvent apprendre des distributions conditionnelles très complexes et peuvent être utilisés pour échantillonner à partir de celles-ci. Ce qui est intéressant avec l’approximation de distributions a posteriori bayésiennes, c'est que nous pouvons améliorer arbitrairement l'approximation des distributions souhaitées en augmentant la taille du réseau neuronal et en l'entraînant plus longtemps, même si on garde le nombre de données fixe. En principe, nous pourrions également procéder de la sorte avec des méthodes qui ne relèvent pas de l'apprentissage automatique, telles que les méthodes MCMC. L'avantage de recourir à l'apprentissage automatique est qu'il peut nous permettre d'être beaucoup plus efficaces en exploitant les régularités qui existent dans la tâche à apprendre, en généralisant à travers le nombre exponentiel d'hypothèses que nous pourrions prendre en considération. Nous observons déjà ce phénomène avec les capacités impressionnantes des LLM, même si j'estime que leur objectif d'apprentissage n'est pas approprié parce qu'il donne lieu à des réponses erronées exprimées avec confiance. Cela constitue un danger majeur pour les humains lorsque les réponses concernent ce que de nombreux humains considéreraient comme un comportement inacceptable.

Nous pouvons réduire la question technique ci-dessus à (1) comment apprendre à approximer P(H | conséquence négative, a, c, D) pour toutes les hypothèses H, actions a, et contextes c et pour les données D en présence, tout en gardant une trace du niveau d'erreur d'approximation, et (2) trouver une preuve qu'il n'existe pas de H pour lequel P(H, conséquence négative | a, c, D)>seuil, ou apprendre d'excellentes heuristiques pour identifier les H qui maximisent P(H, conséquence négative | a, c, D), de telle sorte que l'impossibilité de trouver un H pour lequel P(H, conséquence négative | a, c, D)>seuil inspire la confiance qu'il n'en existe pas. Ces probabilités peuvent en principe être déduites de l'a posteriori général P(H | D) par des calculs de marginalisation qui sont difficiles à réaliser mais que nous avons l'intention d'approximer à l'aide de grands réseaux neuronaux.

Une partie de la recherche proposée consiste à surmonter l'inefficacité connue de l'inférence bayésienne a posteriori nécessaire pour (1). L'autre partie concerne le problème d'optimisation (2) consistant à trouver une hypothèse plausible qui prédit une conséquence négative majeure avec une probabilité supérieure à un certain seuil. Ce problème est similaire aux pires scénarios qui nous viennent parfois à l'esprit : une hypothèse plausible (qui n'est pas incompatible avec d'autres éléments que nous connaissons) nous vient à l'esprit et elle a le potentiel d’entraîner un résultat catastrophique. Lorsque cela se produit, nous devenons prudents et hésitons avant d'agir, décidant parfois d'explorer une piste différente et plus sécuritaire, même si cela risque de retarder (ou de réduire) notre récompense. Pour imiter ce processus de génération de pensées de cette nature, nous pourrions tirer parti de nos estimations conditionnelles pour rendre la recherche plus efficace : nous pouvons approximativement échantillonner P(H | conséquence négative, a, c, D). Avec une méthode de Monte-Carlo, nous pourrions établir un intervalle de confiance concernant notre estimation de la probabilité de conséquence négative et opter pour une décision suffisamment prudente. Il serait encore mieux de demander à un réseau neuronal de construire une preuve mathématique qu'un tel H n'existe pas, comme un certificat de la probabilité maximale de conséquence négative, et c'est l'approche que mon collaborateur David Dalrymple propose d'explorer. Voir la thèse de recherche qui devrait être financée par le gouvernement britannique dans le cadre d'ARIA et qui décrit le type d'approche qui nous intéresse tous les deux.

Un problème important à résoudre est que les réseaux neuronaux utilisés pour approximer les probabilités conditionnelles peuvent encore faire des prédictions erronées. Nous pouvons grossièrement diviser les erreurs en trois catégories : (a) les modes manquants (hypothèses à forte probabilité mais non reconnues par notre réseau de neurones), (b) les modes parasites (y compris les hypothèses incorrectes), et (c) l'estimation localement inexacte des probabilités (nous avons les bonnes hypothèses, mais les valeurs numériques de leurs probabilités sont un peu inexactes). Les probabilités inexactes (c) pourraient être corrigées par un ajustement supplémentaire du réseau neuronal, et nous pourrions estimer ces inexactitudes en faisant des statistiques sur les valeurs du critère d'entraînement, puis les utiliser pour construire des intervalles de confiance autour de nos probabilités estimées. Le fait de n'avoir que des modes parasites (b) ne serait pas trop inquiétant dans notre contexte : cela pourrait nous rendre plus conservateurs que nous ne le devrions, car nous pourrions rejeter une action en raison d'une hypothèse H non plausible que notre modèle considère comme plausible, quand H prédit à tort une conséquence négative catastrophique. Ce qui est important est l'hypothèse H* correcte ferait toujours partie de celles que nous considérons pour un résultat négatif possible. Par ailleurs, certaines méthodes d'entraînement rendent les modes parasites peu probables ; par exemple, nous pouvons échantillonner des hypothèses à partir du réseau neuronal lui-même et vérifier si elles sont cohérentes avec certaines données, ce qui fournit immédiatement un signal d'entraînement permettant de les écarter.

Le véritable danger dont nous devons tenir compte dans le contexte de la sécurité est le point (a), c'est-à-dire les modes manquants, car il pourrait amener notre IA approximativement bayésienne à produire des prédictions erronées en toute confiance concernant les conséquences négatives (mais beaucoup moins souvent que si notre approximation de l'a posteriori était une hypothèse unique, comme dans le cas du maximum de vraisemblance ou de l'apprentissage par renforcement standard). Si nous pouvions considérer un mode (une hypothèse H pour laquelle la vraie probabilité P(H|D) est élevée) que le modèle actuel ne considère pas comme plausible (l’estimation de P(H|D) est trop basse), nous pourrions alors mesurer une erreur d'entraînement et corriger le modèle de manière à augmenter la probabilité estimée.Toutefois, l'échantillonnage à partir du réseau neuronal ne révèlera malheureusement pas l'existence de modes manquants, puisque le réseau neuronal leur attribue une probabilité très faible et ne les échantillonne donc pas. Il s'agit d'un problème courant en apprentissage par renforcement, qui a mené à l'élaboration de méthodes d'exploration, mais nous appliquerons ces méthodes à l'exploration du domaine des hypothèses, et non du domaine des actions réelles : nous voulons échantillonner des hypothèses non seulement à partir de notre modèle actuel, mais aussi à partir d'un modèle génératif plus exploratoire. Cette idée est présente dans l'apprentissage par renforcement et dans la recherche sur l'apprentissage « off-policy » des réseaux d'inférence amortis. Ces méthodes permettent d'explorer des pistes que nous n'avons pas encore explorées ou de découvrir des indices indiquant que nous sommes passés à côté d'une hypothèse plausible. Comme nous l'expliquons ci-dessous, nous pourrions également réduire considérablement ce problème si l'IA pouvait au moins prendre en compte les hypothèses que les humains ont générées dans le passé, par exemple dans la culture humaine et plus particulièrement dans la littérature scientifique.

Une source de réconfort théorique est que nous pourrions en principe réduire ces erreurs d'entraînement à zéro avec davantage de ressources de calcul. Ce qui est bien avec le cadre d'approximation bayésienne a posteriori proposé, c'est qu'en cours d'exécution, nous pouvons poursuivre l'entraînement ou, à tout le moins, estimer l'erreur commise par le réseau neuronal grâce à un processus d'échantillonnage. Cela s'apparente à la manière dont AlphaGo peut perfectionner la prédiction de son réseau neuronal en effectuant un certain nombre de recherches stochastiques pour des suites plausibles du jeu en aval. En termes humains, cela reviendrait à prendre le temps de réfléchir davantage lorsque nous sommes confrontés à une situation délicate où nous ne sommes pas sûrs de ce qu'il faut faire, en continuant d'échantillonner les possibilités pertinentes dans notre tête et en ajustant nos estimations de ce qui pourrait se produire en conséquence.

Un autre moyen de réduire les risques associés à un réseau neuronal insuffisamment entraîné consiste à rendre les hypothèses générées par l'IA relativement compréhensibles par les humains. Pour ce faire, on pourrait utiliser un régularisateur pour encourager l'IA à générer des hypothèses interprétables, c'est-à-dire des hypothèses qui peuvent être converties en langage naturel et inversement avec le moins d’erreur possible, et vice-versa (de sorte que les théories humaines exprimées en langage naturel puissent être exprimées sous forme d'énoncés dans le langage interne de l'IA pour les hypothèses). À tout le moins, si nous ne pouvons pas convertir la théorie complète en une forme interprétable par les humains, nous pourrions nous assurer que les concepts impliqués dans la théorie sont interprétables, même si les relations entre les concepts ne peuvent pas toujours être réduites à une forme verbalisable compacte. Cependant, étant donné qu'un petit nombre d'énoncés discrets aurait une longueur de description beaucoup plus faible, la procédure d'entraînement de l'IA devrait favoriser les explications interprétables. Cela permettrait aux humains d'inspecter les explications générées par l'IA. Au lieu d'essayer d'interpréter les activations des réseaux neuronaux, nous exigerions seulement que les séquences de sorties générées par l'IA soient interprétables ou aussi interprétables que possible. Cela favoriserait l'ensemble des théories sur le monde que les humains peuvent comprendre, mais cet espace est extrêmement vaste : il inclut toutes les théories scientifiques existantes. Certains éléments de ces théories pourraient toutefois être implicites, par exemple le résultat de l'application d'un algorithme. Les théories de l'IA pourraient se référer aux connaissances mathématiques et informatiques existantes afin d'expliquer les données plus efficacement : pensons aux algorithmes qui approximent les calculs de la physique quantique afin de caractériser les propriétés chimiques. Bien que les lois de la physique quantique puissent être énoncées de manière concise, il n'existe pas de solution pratique aux questions impliquant plus de quelques atomes, et la chimie est une question d'approximations validées grâce à des données à plus grande échelle pour lesquelles les calculs quantiques exacts sont irréalisables. Ces approximations sont parfois purement numériques, mais impliquent des variables et des concepts qui peuvent être définis et nommés.

Il est intéressant de noter que les théories humaines auraient généralement une meilleure priorité (c'est-à-dire qu'elles seraient préférées par l'IA) que les théories totalement nouvelles, car la longueur de leur description pourrait être réduite à l'identification de leur index dans l'encyclopédie des connaissances humaines, par exemple en citant la référence bibliographique d'un article scientifique correspondant ou d'une entrée wikipedia. En revanche, les nouvelles théories devraient être spécifiées à partir de l'univers beaucoup plus vaste de toutes les théories possibles. Pour la même raison, une nouvelle théorie qui peut s'appuyer sur des concepts et des théories humaines existants serait plus concise à décrire et aurait plus de chances d'être choisie a priori (selon P(H))) par l'IA qu'une théorie qui nécessite un grand nombre de nouvelles définitions et de nouveaux concepts. L'un des principaux avantages de rendre les hypothèses de l'IA interprétables et les théories humaines transposables au langage de l'IA en matière d'hypothèses est qu'il pourrait nous permettre d'obtenir des garanties approximatives que l'estimation de P(H|D) par l'IA ne pourrait pas omettre une théorie (un mode manquant) qui appartient déjà au corpus de théories humaines. Nous pourrions donc avoir des modes manquants, mais uniquement pour des théories que les humains omettent également.

En outre, il serait judicieux que la même P(H|D) soit utilisée à la fois pour obtenir des actions, par exemple à partir de P(action | résultat, contexte, D), et pour obtenir le rejet prudent d'actions dangereuses via l'échantillonnage de P(H | dommage, action, contexte, D). Par conséquent, si un mode est manquant dans P(H|D), il est manquant pour les deux prédictions conditionnelles (qui proviennent du même réseau neuronal mais qui sont utilisées avec des entrées différentes). Par conséquent, si l'IA peut lire toutes les théories générées par les humains (par exemple en parcourant toute la littérature scientifique), nous pourrions nous assurer que ces hypothèses partielles soient toutes incluses en tant que candidates explicatives pour les données D. Seules les théories humaines compatibles avec les données dont dispose l'IA feraient partie des théories plausibles selon l'estimation de P(H | D), c'est-à-dire que nous pourrions éliminer les mauvaises hypothèses générées par les humains, qui ne sont même pas compatibles avec les données (comme les théories du complot et le charabia incohérent qui occupent une grande partie de l'Internet). En conséquence, nous serions assurés que si un être humain avait prédit une conséquence négative en utilisant l'une des théories plausibles générées par les humains, il en serait de même pour les postérieurs bayésiens sur les théories approximés par l'IA. L'IA pourrait également découvrir des modes (hypothèses plausibles) inconnus des humains, c'est-à-dire de nouvelles théories scientifiques, mais l’IA aurait au moins absorbé toutes les hypothèses humaines sur le fonctionnement du monde, en éliminant celles qui sont incohérentes ou incompatibles avec les données. C'est très différent d'un LLM qui se contente d'imiter la distribution du texte dans son corpus d'entraînement. Nous parlons ici d'explications des données, qui ne peuvent pas être incohérentes avec les données parce que la vraisemblance des données P(D|H) calculée avec une telle interprétation disparaîtrait autrement, ni avoir des parties incohérentes parce que P(H) serait minuscule. Si P(D|H) ou P(H) sont minuscules, l'a posteriori P(H|D) est aussi minuscule et l'IA serait entraînée à ne pas générer de tels H.

Un type spécifique d'explication des données est une explication causale, c'est-à-dire une explication qui implique un graphe de relations de cause à effet. Notre réseau neuronal générant des explications pourrait également générer de tels graphes (ou des graphes partiels dans le cas d'explications partielles), comme nous l'avons déjà démontré à petite échelle. Les explications causales devraient être privilégiées dans notre P(H) préalable parce qu'elles seront plus robustes face aux changements de distribution dus aux actions des agents (humains, animaux, IA), et qu'elles prennent correctement en compte les actions, non seulement en tant que variables aléatoires arbitraires, mais aussi comme étant celles qui interfèrent avec le flux de causalité par défaut - elles sont appelées « interventions ». Les modèles causaux se distinguent des modèles probabilistes ordinaires dans la mesure où ils permettent d'intervenir sur n'importe quel sous-ensemble de variables. Une intervention donne lieu à une distribution différente sans modifier aucun des paramètres du modèle. Un bon modèle causal peut donc être généralisé à de nouvelles distributions, chacune correspondant à une intervention différente. Même un programme informatique peut être considéré sous un angle causal, lorsque l'on autorise des interventions sur les variables d'état du programme, qui agissent ainsi comme les nœuds d'un graphe causal.

Ce billet de blogue ne fournit qu'un aperçu à haut niveau du programme de recherche que je propose, et il reste encore beaucoup à faire pour atteindre l'objectif principal d'une inférence probabiliste efficace et fiable sur les actions menant potentiellement à des conséquences négatives, avec le souhait crucial d'augmenter l'assurance de sécurité lorsqu'une plus grande puissance de calcul est disponible, soit de manière générale, soit dans un contexte particulier avec une action proposée. Nous ne savons pas combien de temps il nous reste avant de franchir le seuil des capacités dangereuses de l'IA, c'est pourquoi des progrès en matière d'alignement et de contrôle de l'IA sont nécessaires de toute urgence.

Article précédent Dimensions personnelles et psychologiques des chercheurs en IA face aux risques catastrophiques de l'IA
Article suivant Le Rapport scientifique international sur la sécurité de l'IA avancée

Retour aux publications