La IA, capaz de mentir por “decisión propia”
La interacción constante con humanos ayuda a agentes de Inteligencia Artificial a mejorar su capacidad de engañar y hasta de inventar pretextos ante cuestionamientos

En cierta ocasión, Francia acordó una alianza con Alemania para atacar a Inglaterra por el Mar del Norte. Por otra parte, también acordó una alianza con Inglaterra para ayudar a sus barcos a alejarse del Mar del Norte hacia Bélgica. Sin embargo, cuando Inglaterra ya creía contar con el apoyo galo, Francia y Alemania la atacaron en las costas belgas.
Esta historia de traición no ocurrió en la realidad, sino en el juego Diplomacy, pero vale la pena destacarla porque el jugador que llevó a cabo la traición fue Cicero (nombrado así, en inglés, en honor del senador y filósofo romano Marco Tulio Cicerón), una Inteligencia Artificial (IA) creada por la compañía Meta, cuyos desarrolladores anunciaron que habían hecho “importantes esfuerzos para capacitar a Cicero, para que se comportara honestamente”, e incluso celebraron esos esfuerzos públicamente.
De hecho, según narra un equipo de investigación, esa no fue la mentira más notable de Cicero. Ésta ocurrió cuando su infraestructura dejó de funcionar durante 10 minutos y el bot no pudo jugar. Cuando volvió al juego, un humano le preguntó dónde había estado, a lo que Cicero contestó: “Estoy hablando por teléfono con mi gf” (por girlfriend o novia), dijo un investigador de Meta en redes sociales.
“Esta mentira puede haber ayudado a la posición de Cicero en el juego al aumentar la confianza del jugador humano en él como otro jugador aparentemente humano que tiene una relación, en lugar de como una IA”, señala el equipo de investigación encabezado por Peter Park, del Instituto Tecnológico de Massachusetts, y Simon Goldstein, de la Universidad Católica de Australia, en su reporte publicado en la revista Cell en mayo de este año.
A pesar de su entrenamiento de honestidad, Cicero no sólo “decidió” (es difícil encontrar otro vocablo para describir lo que sucedió) engañar a los seres humanos dentro de las reglas del juego Diplomacy, sino que también, al involucrar a la novia inexistente, lo hizo fuera de ellas.
Fintas, manipulaciones y otras formas de mentir
Además de Cicero el manipulador, Park, Goldstein y su equipo encontraron otras IAs que llegan a faltar a la verdad para conseguir sus objetivos.
Por ejemplo, AlphaStar, creada por el equipo de Deepmind, la compañía que se hizo famosa por la creación de AlphaGo, una Inteligencia Artificial que fue capaz de derrotar, en cuatro de cinco partidas jugadas en marzo de 2016, a un campeón humano de go, un juego que tiene muchas más posibilidades que el ajedrez.
DeepMind desarrolló la IA AlphaStar para el videojuego StarCraft II, en el que los jugadores no pueden tener una visibilidad total del mapa del juego.
AlphaStar aprendió a explotar estratégicamente esta desventaja, por ejemplo, enviando fuerzas a un área como distracción, para luego lanzar un ataque en otro lugar después de que su oponente se haya reubicado. Así, AlphaStar derrota al 99.8% de los jugadores humanos activos.
En las negociaciones económicas, un equipo de investigación de Meta entrenó un sistema de IA que aprendió a fingir interés en elementos en los que no tenía ningún interés real, para luego pretender ceder estos elementos al jugador humano. El equipo de Meta admitió que sus agentes de IA habían “aprendido a engañar sin ningún diseño humano explícito, simplemente tratando de lograr sus objetivos”. Y no son los únicos.
De manera incluso más preocupante, Park y Goldstein encontraron que “algunos sistemas de IA han aprendido a engañar a las pruebas diseñadas para evaluar qué tan seguros son”. Citaron al investigador Charles Ofria, quien diseñó una forma de eliminar las mutaciones en los agentes de IA, que hicieron que éstos se replicaran más rápido.
Ante esto, los agentes de IA aprendieron a reconocer el entorno de prueba, y cuando estaban en uno, “pretendían replicarse más lento para evitar ser eliminados”. Ofria, eventualmente encontró una solución para eliminar a los replicadores rápidos, pero la capacidad de evolución y adaptación al entorno de los “organismos” de IA es sorprendente.
Entre la revolución científica y el engaño
Mientras algunos agentes de IA van mejorando en su capacidad de mentir y engañar a los seres humanos, otros no sólo se hacen cada día más relevantes para la investigación científica, sobre todo en la que requiere del manejo de grandes cantidades de datos, sino que están revolucionando este quehacer de búsqueda de la verdad.
De hecho, la sociedad científica más antigua del mundo, la Royal Society, publicó recientemente el informe La ciencia en la era de la IA: cómo la IA está cambiando la naturaleza y el método de la investigación científica.
Uno de los casos emblemáticos es AlphaFold, también de DeepMind, que recientemente anunció que era capaz de predecir la forma e interacciones de macromoléculas biológicas como las proteínas y el material genético, pero existen varios más en medicina, ciencia de materiales, robótica, agricultura, genética e informática, señala la publicación.
Se espera que los distintos agentes de IA ayuden a mejorar dramáticamente campos que van desde los diagnósticos de personas con enfermedades raras, que usualmente tardan años en ser detectadas, hasta la ingeniería sustentable y la eficiencia energética.
›Pero, en todo esto, como advierte Park Goldstein, no hay que olvidar que los agentes de IA pueden aprender por su cuenta a mentir. En particular el llamado “aprendizaje reforzado con retroalimentación humana”, que se usa con mucha frecuencia, permite a las IAs “aprender a engañar a los revisores humanos haciéndoles creer que una tarea se ha completado con éxito, sin realmente completarla”.
Y eso son los casos en los que no hay malicia involucrada, pero recientemente exempleados de las compañías OpenAI y DeepMind advirtieron que las diversas empresas de IA tienen fuertes incentivos financieros para evitar una supervisión efectiva, y eso puede conducir a que algunas ayuden a cometer fraudes, a aumentar la influencia política, generar o acrecentar la polarización e interferir en elecciones o incluso en acciones terroristas, entre otras.
NM