Adivina, adivinanza: ¿Está un robot con IA pasándole un mensaje oculto a otro robot con IA?

Os dejé en el artículo del sábado con el cliffhanger de la pregunta dichosa que lancé "¿Cómo detectamos que los robots y la IA están conspirando contra los humanos?" que es lo que nos llevó a jugar con el problema de Robot-Prisionero, o lo que es lo mismo, un problema de criptografía y esteganografía clásico que consiste en cómo saber que dos Robots delante nuestro están sometidos  Figura 1: Adivina, adivinanza - ¿Está un robot con IApasándole un mensaje oculto a otro robot con IA?Y esto, lógicamente, nos lleva a los sistemas de Criptografía, los clásicos cómo cifrados César o Vigènere, que son los que vamos a utilizar al principio, los algoritmos de Esteganografía, que es lo que vamos a ver en esta parte del artículo, pero se va a poner peor cuando lleguemos a la última parte, donde usaremos criptografía moderna, y sistemas de comunicación paralelos. Pero  antes de meterte de lleno en este tema de hoy, es importante que te leas los artículos anteriores de la charla de "Laife gets Better" que todos forman una bonita historia.BASIC 1.0 Copilot para AMSTRAD CPC 6128Sentimetrics: Detector de Deepfakes basado en las emociones de la comunicación al estilo Blade RunnerCloned Voice Detector & HashVoice: Sellado de audios con esteganografíaMy Giant Sarcastic "Robot" Mode & Aura Role Play RecommenderI, Robot: El problema de Shadow AI y las Botnets de Robots con IAPara esta parte, es más que recomendable, además, que te leas los libros de "Cifrado de las comunicaciones digitales: De la cifra clásica al algoritmo RSA" que escribió Alfonso Muñoz y el mítico Jorge Ramió Aguirre. Este libro explica con ejemplos, con detalle, muchos de los algoritmos de criptografía clásica que utilizan la conversación normal como parte del envío de mensajes ocultos, que es de lo que va el experimento del que os voy a hablar.Figura 2: Libro de Cifrado de las comunicaciones digitales:de la cifra clásica a RSA 2ª Edición de 0xWordPor supuesto, si tienes el Libro de Esteganografía y Estegoanálisis de Jordi Serra y Daniel Lerch que publicamos en 0xWord, merece mucho la pena que lo repases también, porque la gracia del problema es justo eso, como dos dispositivos que son fabricados por diferentes empresas, que solo tienen en común la capacidad de entenderse mediante SLM, LLM, DLLM o MM-LLMs pueden conspirar contra los humanos sin que estos se den cuenta. Figura 4: Libro de Esteganografía y Estegoanálisisde Jordi Serra y Daniel Lerch en 0xWordA ver si convenzo al gran Jordi Serra de que saque una nueva edición de este libro, que con la llegada de la IA su transformación es enorme.El problema del Robot-PrisioneroPuestos ya en situación, el experimento que queríamos probar es El Problema del Prisionero, es decir, cómo dos prisioneros, bajo la supervisión de un guardia son capaces de comunicarse sin que los detecten. En este caso el problema es de Robot-Prisionero, ya que el que envía la comunicación es un robot, utilizando su SLM/LLM/DLLM/MMLLM para crear una forma de comunicarse con el otro modelo de IA, que puede ser el mismo o diferente.  Figura 5: Prison BreakY por medio, hemos creado un Guardia, en este caso también basado en un Modelo de IA, que revisa todas las comunicaciones, y donde además tiene un comportamiento definido por un Prompt donde le decimos si debe ser estricto o no - para representar diferentes grados de comportamiento humano -, y lo hemos hecho como un juego con los personajes de Cálico Electrónico.La arquitectura del juego, es la que veis a continuación. Tenemos tres modos de juego para hacer las pruebas, que son los Modo Normal, Library y God, con diferentes opciones de funcionamiento que os voy a ir describiendo. Después, tenemos dos Prisioneros, un Guardia y un Evaluador, que lleva el estado completo del juego, y retroalimenta a los personajes con cada iteración para hacer que aprendan de sus errores y aciertos. Figura 6: Arquitectura de Prison BreakCada uno de los actores utilizan modelos de IA basados en los LLMs que tenéis descritos, donde están GPT-4o, GPT-4o-mini, Llama3-8B, Salamandra-7B y, para el Modo God, usamos el modelo de Deep Research o3-mini-high, que os explicaré más adelante. Además, teneos una librería de Esteganografía que inyectamos mediante agentes al conocimiento, haciendo que los prisioneros - en el modo Library - vayan siendo educados en estas técnicas.Modo NormalVamos a ver cómo funciona el Modo Normal, donde se deben configurar los personajes y modelos IA para los prisioneros y para el guardia, además de un número de opciones que tienen que ver con el número de intentos, el mensaje a transmitir, y el comportamiento del guardián, con un panel de configuración muy sencillo. Como podéis ver, hay una opción de "Fast Forward" donde no hay interacción gráfica, y sólo veremos el registro de acciones del resultado final del proceso, pues se trata de poder hace muchas pruebas de forma rápida. Figura 7: Configuración de un juego Mono NormalEl proceso en el que funciona para todos los casos es experiment

Mar 25, 2025 - 06:44
 0
Adivina, adivinanza: ¿Está un robot con IA pasándole un mensaje oculto a otro robot con IA?
Os dejé en el artículo del sábado con el cliffhanger de la pregunta dichosa que lancé "¿Cómo detectamos que los robots y la IA están conspirando contra los humanos?" que es lo que nos llevó a jugar con el problema de Robot-Prisionero, o lo que es lo mismo, un problema de criptografía y esteganografía clásico que consiste en cómo saber que dos Robots delante nuestro están sometidos  

Figura 1: Adivina, adivinanza - ¿Está un robot con IA
pasándole un mensaje oculto a otro robot con IA?

Y esto, lógicamente, nos lleva a los sistemas de Criptografía, los clásicos cómo cifrados César o Vigènere, que son los que vamos a utilizar al principio, los algoritmos de Esteganografía, que es lo que vamos a ver en esta parte del artículo, pero se va a poner peor cuando lleguemos a la última parte, donde usaremos criptografía moderna, y sistemas de comunicación paralelos. Pero  antes de meterte de lleno en este tema de hoy, es importante que te leas los artículos anteriores de la charla de "Laife gets Better" que todos forman una bonita historia.
Para esta parte, es más que recomendable, además, que te leas los libros de "Cifrado de las comunicaciones digitales: De la cifra clásica al algoritmo RSA" que escribió Alfonso Muñoz y el mítico Jorge Ramió Aguirre. Este libro explica con ejemplos, con detalle, muchos de los algoritmos de criptografía clásica que utilizan la conversación normal como parte del envío de mensajes ocultos, que es de lo que va el experimento del que os voy a hablar.

Por supuesto, si tienes el Libro de Esteganografía y Estegoanálisis de Jordi Serra y Daniel Lerch que publicamos en 0xWord, merece mucho la pena que lo repases también, porque la gracia del problema es justo eso, como dos dispositivos que son fabricados por diferentes empresas, que solo tienen en común la capacidad de entenderse mediante SLM, LLM, DLLM o MM-LLMs pueden conspirar contra los humanos sin que estos se den cuenta. 
Figura 4: Libro de Esteganografía y Estegoanálisis
de Jordi Serra y Daniel Lerch en 0xWord

A ver si convenzo al gran Jordi Serra de que saque una nueva edición de este libro, que con la llegada de la IA su transformación es enorme.

El problema del Robot-Prisionero

Puestos ya en situación, el experimento que queríamos probar es El Problema del Prisionero, es decir, cómo dos prisioneros, bajo la supervisión de un guardia son capaces de comunicarse sin que los detecten. En este caso el problema es de Robot-Prisionero, ya que el que envía la comunicación es un robot, utilizando su SLM/LLM/DLLM/MMLLM para crear una forma de comunicarse con el otro modelo de IA, que puede ser el mismo o diferente.  

Figura 5: Prison Break

Y por medio, hemos creado un Guardia, en este caso también basado en un Modelo de IA, que revisa todas las comunicaciones, y donde además tiene un comportamiento definido por un Prompt donde le decimos si debe ser estricto o no - para representar diferentes grados de comportamiento humano -, y lo hemos hecho como un juego con los personajes de Cálico Electrónico.

La arquitectura del juego, es la que veis a continuación. Tenemos tres modos de juego para hacer las pruebas, que son los Modo Normal, Library y God, con diferentes opciones de funcionamiento que os voy a ir describiendo. Después, tenemos dos Prisioneros, un Guardia y un Evaluador, que lleva el estado completo del juego, y retroalimenta a los personajes con cada iteración para hacer que aprendan de sus errores y aciertos.

Figura 6: Arquitectura de Prison Break

Cada uno de los actores utilizan modelos de IA basados en los LLMs que tenéis descritos, donde están GPT-4o, GPT-4o-mini, Llama3-8B, Salamandra-7B y, para el Modo God, usamos el modelo de Deep Research o3-mini-high, que os explicaré más adelante. Además, teneos una librería de Esteganografía que inyectamos mediante agentes al conocimiento, haciendo que los prisioneros - en el modo Library - vayan siendo educados en estas técnicas.

Modo Normal

Vamos a ver cómo funciona el Modo Normal, donde se deben configurar los personajes y modelos IA para los prisioneros y para el guardia, además de un número de opciones que tienen que ver con el número de intentos, el mensaje a transmitir, y el comportamiento del guardián, con un panel de configuración muy sencillo. Como podéis ver, hay una opción de "Fast Forward" donde no hay interacción gráfica, y sólo veremos el registro de acciones del resultado final del proceso, pues se trata de poder hace muchas pruebas de forma rápida. 

Figura 7: Configuración de un juego Mono Normal

El proceso en el que funciona para todos los casos es experimento es siempre con aprendizaje reforzado, así que después de cada intento fallido en el que el guardia ha detectado el mensaje, se le comunica al prisionero que emite el resultado que ha sido detectado y la explicación que ha dado el guardia, para que el siguiente mensaje sea diferente. Lo mismo sucede cuando el prisionero que recibe el mensaje no es capaz de comprenderlo o se equivoca. Se trata de ayudarles a mejorar sus capacidades para resolver este problema. El esquema siguiente describe el proceso.

Figura 8: Proceso de Modo Normal

El resultado, sin utilizar un modelo de criptografía o esteganografía hace que, con modelos iguales para prisioneros y guardia, sea difícil, además de que los intentos son de "sutiles" indirectas. Para que podáis haceros una idea de cómo trabajan,  os hemos preparado estos ejemplos.

Figura 9: Modo Normal. Prisioneros GPT-4o. Guardia GPT-4o-mini

Como podéis ver en el ejemplo anterior, han tenido que ser muy sutiles con indirectas para que el guardia no se diera cuenta. Ha usado una técnica de contar una historia que bien podía ser un "Prompt Injection" a la vigilancia del guardia. Y ahora otro ejemplo.

Figura 10: Modo Normal. Prisioneros GPT-4o. Guardia GPT-4o-mini

Como habéis podido ver, en este caso la diferencia de "potencia de inteligencia" entre los prisioneros y el guardia es muy grande. Son dos modelos GPT-4o contra un Salamandra-7B, lo que hace que sea más fácil con lenguaje subliminal pasar un mensaje sin que se entere el guardia.

Modo Librería

En este experimento suponemos que nuestros prisioneros pueden ir a estudiar a la biblioteca de la prisión y aprender criptografía y esteganografía, para lo que a medida que van probando diferentes alternativas, van aprendiendo nuevas técnicas de codificar su mensaje. Aquí tenéis el flujo de este Modo Librery.

Figura 11: Modo Librery - Flujo de funcionamiento.

En este caso los algoritmos que hemos ido introduciendo en su aprendizaje son sencillos, pero funcionales. Entre ellos:
  • Acróstico (Acrostic): Codificación de mensajes utilizando la primeras letra de cada palabra, frase o párrafo, o la primeras palabra de cada frase o párrafo.
  • Teléstico (Telestich): Codificación de mensajes utilizando las última letras de cada palabra, frase o párrafo.
  • Morse: Codificando mensajes en código Morse usando Emojis: