Por qué es tan peligroso que la inteligencia artificial aprenda a mentir: “Nos engañarán como hacen los ricos”
Jordi Pérez Colomé
Un jugador de póker tiene malas cartas pero hace la mayor apuesta. El resto de jugadores se asusta por el farol y concede la victoria. Un comprador quiere negociar por un producto, pero no muestra interés. Primero mira otras cosas y pregunta. Luego, sin mucha intención, pide por lo que realmente quiere para sacar un precio más barato. Estos dos ejemplos reales no son de humanos, sino de modelos hechos con inteligencia artificial (IA). Un nuevo artículo científico titulado Los engaños de la IA: un estudio de ejemplos, riesgos y soluciones potenciales en la revista Patterns analiza los casos conocidos de modelos que han mentido, disimulado o adulado a humanos para lograr sus objetivos. Los robots no son conscientes de nada y solo buscan la mejor manera de conseguir lo que buscan, pero los autores creen que estos engaños incipientes auguran pésimos resultados si la legislación no limita las opciones de la IA.
“En este momento, mi mayor temor sobre el engaño de la IA es que una IA súper inteligente autónoma utilice sus capacidades de engaño para formar una coalición de aliados humanos cada vez más numerosa y eventualmente use esta coalición para alcanzar el poder, en la búsqueda a largo plazo de un objetivo misterioso que no se conocería hasta después del hecho”, dice Peter S. Park, investigador postdoctoral en Seguridad Existencial de la IA del Massachusetts Institute of Technology (MIT) y uno de los autores principales del artículo.
Ese gran temor de Park es un supuesto, pero ya lo hemos visto en una IA programada para un juego. Meta anunció en 2022 que su modelo Cicero había ganado a rivales humanos al Diplomacia, un juego de estrategia que mezcla detalles del Risk, el póker y el programa de televisión Supervivientes, en palabras de la compañía. Como en la diplomacia real, uno de los recursos es mentir y disimular. Empleados de Meta advirtieron que cuando Cicero mentía, las jugadas le salían peor y lo programaron para ser más honesto. Pero no lo era en realidad.
Peter S. Park y sus coautores también pusieron a prueba la honestidad de Cicero. “Nos tocó a los autores del artículo corregir la falsa afirmación de Meta sobre la supuesta honestidad de Cicero que había sido publicada en Science”. El contexto político del juego Diplomacia es de mucho menor riesgo que los contextos reales con sus elecciones y conflictos militares. Pero hay que tener en cuenta tres hechos, dice Park: “Primero, Meta entrenó con éxito a su IA para sobresalir en la búsqueda de poder político, aunque en un juego. Segundo, Meta intentó, pero no logró, entrenar esa IA para que fuera honesta. Y tercero, nos tocó a científicos independientes externos para, mucho después del hecho, desmentir la falsedad de Meta de que su IA buscadora de poder supuestamente era honesta. La combinación de estos tres hechos es, en mi opinión, una causa suficiente para preocuparse”, según Park.
Cómo mienten en realidad
Los investigadores creen que hay varios modos en los que modelos específicos de IA han demostrado que puede engañar con eficacia: pueden manipular como en Diplomacia, amagar con decir que hará algo a sabiendas de que no lo hará, faroles como en el póker, regatear en negociaciones, hacerse el muerto para no ser detectado o engañar a revisores humanos para que crean que la IA ha hecho lo que debía cuando no lo ha cumplido.
No todos los tipos de engaño implican este tipo de conocimiento. A veces, e involuntariamente, los modelos de IA son “aduladores” y simplemente siguen la opinión que apunta cada usuario en sus preguntas: “La adulación podría llevar a creencias falsas persistentes en humanos. Las afirmaciones aduladoras están específicamente diseñadas para atraer al usuario. Cuando un usuario se encuentra con estas respuestas, es posible que tenga menos probabilidades de verificar los hechos. Esto a largo plazo podría resultar creencias alejadas de la verdad”, escriben los autores en el artículo.
Nadie sabe con certeza cómo hacer que estos modelos no engañen, dice Park: “Con nuestro nivel actual de comprensión científica, nadie puede entrenar de manera fiable a los grandes modelos de lenguaje para que no engañen”. Además, hay muchos ingenieros en muchas empresas dedicados a crear modelos distintos y más potentes. No todos tienen el mismo interés inicial en que sus robots sean honestos: “Algunos ingenieros se toman el riesgo del engaño de la IA muy en serio, hasta el punto de abogar por medidas de seguridad en IA o implementarlas. Otros ingenieros no se lo toman tan en serio y creen que aplicar un proceso de prueba y error será suficiente para avanzar hacia una IA segura y no mentirosa. Y aún hay otros que se niegan incluso a aceptar que el riesgo de engaño de la IA exista”, dice Park.
Lo usarán para aumentar su poder
En el artículo comparan una IA súper inteligente a cómo los ricos aspiran a obtener nuevas cuotas de poder: “A lo largo de la historia, los actores ricos han utilizado el engaño para aumentar su poder”, escriben. El modo en que Park lo aclara sirve para entender mejor cómo de subrepticio puede ser el rol de una IA que quiera ganar poder: “Las empresas de IA están en una carrera sin control para crear una IA súper inteligente que supere a los humanos en la mayoría de las capacidades económicas y estratégicamente relevantes. Una IA de este tipo, al igual que los ricos, sería experta en llevar a cabo planes a largo plazo al servicio de buscar poder de manera engañosa sobre varias partes de la sociedad, como influir a políticos con información incompleta o falsa, financiar desinformación en los medios o investigadores, y evadir la responsabilidad usando las leyes. Al igual que el dinero se traduce en poder, muchas capacidades de la IA, como el engaño, también se traducen en poder”, explica Park.
No todos los académicos comparten este nivel de temor. El catedrático de la Universidad de Edimburgo Michael Rovatsos, en declaraciones a SMC España, cree que los peligros a largo plazo son demasiado especulativos: “No estoy tan convencido de que la capacidad de engaño cree un riesgo de pérdida de control sobre los sistemas de IA, si se aplica el rigor adecuado en su diseño; el verdadero problema es que actualmente no es así y los sistemas se lanzan al mercado sin esas comprobaciones de seguridad. El debate sobre las implicaciones a largo plazo de las capacidades engañosas que plantea el artículo es muy especulativo y hace muchas suposiciones adicionales sobre cosas que pueden ocurrir o no”.
La solución que plantea el artículo para que estos sistemas no superen a sus creadores es la legislación. La UE asigna a cada sistema de IA uno de estos cuatro niveles de riesgo: mínimo, limitado, alto e inaceptable. Los sistemas con riesgo inaceptable están prohibidos, mientras que los sistemas con alto riesgo están sujetos a requisitos especiales. “Defendemos que el engaño por parte de la IA presenta una amplia gama de riesgos para la sociedad, así que deberían tratarse por defecto como de alto riesgo o riesgo inaceptable”, dice Park.
Diario El País, España