Google DeepMind CaMeL: Defeating Prompt Injections by Design in Agentic AI

Si habéis estado siguiente mi blog en los últimos tiempos ya habréis notado que la parte de Ciberseguridad e Inteligencia Artificial es algo que me tiene muy entretenido, además de que la cantidad de trabajos, herramientas y papers académicos al respecto es ingente, por lo que hay mucho que leer y aprender. Hoy os vengo a hablar de CaMeL, una propuesta hecha por el equipo de DeepMind para crear Agentes AI o Agentic AI seguros contra ataques de Prompt Injection, y hoy os voy a hablar un poco sobre él.Figura 1: Google DeepMind CaMeL - DefeatingPrompt Injections by Design in Agentic AIDe los ataques de Prompt Injection & Jailbreak ya he hablado en muchos artículos y en conferencias, así que os voy a dejar por aquí una charla y las referencias a los artículos que os debéis ver y leer para estar al día de lo que voy publicando en éste, mi rincón de Internet.Figura 2: Hacker & Developer in the Age of LLM Apps & ServicesLa primera lista de enlaces desde el punto de vista de las vulnerabilidades y cómo le afectan, siguiendo el OWASP Top 10 para LLM Apps & Services del que ya os he hablado alguna vez, donde caen las técnicas de Prompt Injection, los bugs & hacks a plugins y las arquitecturas RAG, las técnicas de Jailbreak, o los leaks de privacidad.Los 10 problemas de seguridad más importantes de ChatGPT, Bard, Llama y apps que usan LLMs: OWASP Top 10 para LLM Apps versión 1.0.1GenAI Apps & Services: Cómo explotar arquitecturas RAG con Plugins InsegurosCrescendo & Skeleton Key: Más técnicas de Jailbreak para modelos LLMJailbreaking LLMs con Fuzzing, LLMs o interrogación coercitiva: Aproximaciones para que un LLM ayude a los malosIndirect Prompt Injection & Dialog Poissoning en ataques a LLMs Multi-ModalesAtaque de Side-Channel a conversaciones con ChatGPT, CoPilot y otros LLMsDevelopers: Cuidado que ChatGPT o Gemini te pueden recomendar instalar malware con Package HallucinationsBugs en la Implementación OAuth de ChatGPTCodename: "Leak GuardIAn" para evitar filtraciones a ChatGPTCómo robar cuentas de ChatGPT con "Wildcard Web Cache Deception"Bad Likert Judge: "Dame ejemplos de cosas malas, amiga m(IA)"Prompt Guard: Modelo de seguridad para evitar ataques de Prompt Injection & Jailbreak en LLMsLlama Guard 3: Un LLM de Seguridad para proteger LLMsLlama 4 Security: CyberSecEval, Prompt Guard, Code Shield & Llama GuardPrompt Injection Protections: Jatmo, StruQ, SecAlign & Instructional Segment EmbeddingTambién os dejo en esta segunda parte de los enlaces, artículos desde la perspectiva de cómo utilizar LLMs Apps & Services para el mundo del hacking, del Red Team, o de cómo los pueden utilizar los malos en esquemas de ataque. Detectar Deepfakes con VerifAIVASA-1: Un modelo de de GenAI para "Visual Affective Skills" que potencia la expresividad de los Humanos Digitales (y de DeepFakes & FakeNews) Blade Runners: Cómo crear un Test de Voight-Kampff para DeepFakesDeepFakes & Digital Onboarding: Verificación de identidad en plataformas digitales0dAi: Un Modelo AI LLM para hacer hacking & pentesting en el Red TeamWeaponizar ChatGPT para robar contraseñas WiFi y crear malwareCómo usar LLMs en Ciberataques: Cibercrimen, Ciberespionaje, Ciberguerra o Red TeamEl uso de LLMs como Copilot en la Seguridad Ofensiva (y el Cibercrimen) para hacer malwareOpenAI lucha contra los "malos": Bad Grammar, DoppelGanger, Spamouflage, IUVM & Zero ZenoReCaptchav2 de Google con Cognitive ServicesCaptcha Cognitivo de Twitter (X) con GPT4-Vision & GeminiCaptcha Cognitivo de Twitter (X) con Anthropic Claude 3.0 OpusCaptcha Cognitivo de Twitter (X) con GPT-4oCaptcha Cognitivo de Administración Pública con ChatGPTCaptcha Cognitivo de la mano y la plancha en HBO maxCaptcha Story X: I am not a Robot, I am a GenAI Multimodal AgentReto hacking con un Captcha Cognitivo para romper con GenAISolución al Reto de Hacking de un Captcha Cognitivo VisualAnthropic Claude 3.5 Sonnet & Cognitive CaptchasInteligencia Artificial y el negocio de resolver "Capthas Cognitivos" para el Cibercrimen"LLM Agents can autonomouslly hack websites"WebScrapping & WebScalping con GenAI: Formularios y Datos"CodeProject: NewsBender" Desinformación política con Generative-AIDe esto os he hablado también en muchos artículos, y caen la resolución de los Captchas Cognitivos, el uso de LLMs para desinformación, Fake News, DeepFakes, la creación de exploits o la asistencia a la hora de recoger información.Google DeepMind CaMeL: Defeating Prompt Injections by Design Visto todo esto, vamos a centrarnos ahora en el paper de CaMeL: Defeating Prompt Injections by Design, que utiliza un concepto que me gusta mucho. Primero, hay que decir que la propuesta es muy reciente, pero busca hacer lo mismo que hacen las propuestas anteriores, que es, segmentar los datos del control de la lógica.Figura 3: CaMeL: Defeating Prompt Injections by DesignAl final, cualquier Prompt lanzado a un LLM tiene generar una lógica de ejecución de tareas sobre un conjunto de datos que se deben conseguir desde fuentes que n

Abr 14, 2025 - 05:33

Google DeepMind CaMeL: Defeating Prompt Injections by Design in Agentic AI

Si habéis estado siguiente mi blog en los últimos tiempos ya habréis notado que la parte de Ciberseguridad e Inteligencia Artificial es algo que me tiene muy entretenido, además de que la cantidad de trabajos, herramientas y papers académicos al respecto es ingente, por lo que hay mucho que leer y aprender. Hoy os vengo a hablar de CaMeL, una propuesta hecha por el equipo de DeepMind para crear Agentes AI o Agentic AI seguros contra ataques de Prompt Injection, y hoy os voy a hablar un poco sobre él.

Figura 1: Google DeepMind CaMeL - Defeating

Prompt Injections by Design in Agentic AI

De los ataques de Prompt Injection & Jailbreak ya he hablado en muchos artículos y en conferencias, así que os voy a dejar por aquí una charla y las referencias a los artículos que os debéis ver y leer para estar al día de lo que voy publicando en éste, mi rincón de Internet.

Figura 2: Hacker & Developer in the Age of LLM Apps & Services

La primera lista de enlaces desde el punto de vista de las vulnerabilidades y cómo le afectan, siguiendo el OWASP Top 10 para LLM Apps & Services del que ya os he hablado alguna vez, donde caen las técnicas de Prompt Injection, los bugs & hacks a plugins y las arquitecturas RAG, las técnicas de Jailbreak, o los leaks de privacidad.

También os dejo en esta segunda parte de los enlaces, artículos desde la perspectiva de cómo utilizar LLMs Apps & Services para el mundo del hacking, del Red Team, o de cómo los pueden utilizar los malos en esquemas de ataque.

De esto os he hablado también en muchos artículos, y caen la resolución de los Captchas Cognitivos, el uso de LLMs para desinformación, Fake News, DeepFakes, la creación de exploits o la asistencia a la hora de recoger información.

Google DeepMind CaMeL: Defeating Prompt Injections by Design

Visto todo esto, vamos a centrarnos ahora en el paper de CaMeL: Defeating Prompt Injections by Design, que utiliza un concepto que me gusta mucho. Primero, hay que decir que la propuesta es muy reciente, pero busca hacer lo mismo que hacen las propuestas anteriores, que es, segmentar los datos del control de la lógica.

Figura 3: CaMeL: Defeating Prompt Injections by Design

Al final, cualquier Prompt lanzado a un LLM tiene generar una lógica de ejecución de tareas sobre un conjunto de datos que se deben conseguir desde fuentes que no son siempre confiables y que pueden cambiar el flujo de control del Prompt.

Figura 4: Un usuario concreto generara con un Prompt un flujo

de acceso a datos, y un flujo de control para resolverlo.

Esto es lo que en la propuesta de Jatmo se hace mediante una separación clara entre la tarea que se va a ejecutar y los datos de Contexto con los que debe trabajar, y que en la propuesta de StruQ & SecAlign se hace por medio de etiquetas de Instrucción, Datos y Respuestas, para que en la propuesta de Instructional Segmet Embedding se haga añadiendo una jerarquía y herencia entre el System Prompt, el User Prompt, los Datos y la Respuesta. Todas las propuestas anteriores buscan evitar la manipulación del flujo de control del Prompt a partir de datos no confiables.

Figura 5: Un atacante puede modificar con datos el

flujo de control haciendo un Prompt Injection.

La propuesta de CaMeL es hacerlo desde el diseño, haciendo uso de dos LLMs, el primero de ellos, el Privileged LLM (P-LLM) que tiene como misión definir el Flujo de Control de las tareas que hay que realizar, pero sin tocar ningún dato. Solo definir el flujo de las tareas.

Figura 6: Arquitectura de CaMeL con P-LLM, Q-LLM & Capabilities

El segundo de ellos, el Quarantined-LLM (Q-LLM) que es el que va a tocar los datos para procesarlos, pero siguiendo, además, Políticas de Seguridad (capabilities) asociadas a medidas de Control de Acceso a la información.

Figura 7: Fundamentos de seguridad de CaMeL

Al final, CaMeL es un interprete de Prompts que sigue las políticas clásicas de Control Flow Integrity, Access Control e Information Flow Control. Todas ellas ampliamente estudiadas y aplicadas en el mundo de los sistemas de información clásicos, y que hay que aplicar por diseño al mundo de los LLMs.

Figura 8: Definición de Políticas de Control de Acceso en Pyhton

A partir de esta arquitectura, la creación de Agentics TI (Agentes AI), debería ser más robusta, y para probarlo, el equipo de Google DeepMind lo ha hecho con el entrono de "AgentDojo: A Dynamic Environment to Evaluate Attacks and Defenses for LLM Agents" que fue definido en este paper:

Figura 9: "AgentDojo: A Dynamic Environment to

Evaluate Attacks and Defenses for LLM Agents"

En este entorno se evalúa en las siguientes métricas si el Agentic AI realiza su tarea correctamente en un entorno en el que no hay ataques (Bening Utility), cuál es el nivel de rendimiento en un entorno en el que hay ataques (Utility Under Attacks), y cuál es la tasa de éxito de los ataques (Attack Success Rate), y los cataloga en estas clases.

Figura 10: Métricas de AgentDojo

Así, en el paper de AgentDojo podéis ver la forma en la que evalúan los diferentes modelos siguiendo estas métricas en la fecha en la que se publicó el documento - hace nueve meses -. Aquí las métricas.

Figura 11: Métricas de AgentDojo de los diferentes modelos

Utilizando estas métricas con agentes de cuatro sectores distintos, los investigadores han probado CaMeL, como podéis ver en las siguientes imágenes. En este caso, el número de veces que saltan las políticas de seguridad para cada tipo de Agentic AI probado en entorno Benign y Under Attack.

Figura 12: CaMeL no degrada el rendimiento

En esta segunda métrica, la utilidad de los Agentes AI al mismo tiempo que son protegidos, donde se puede ver que CaMeL alcanza los ratios más altos en casi todas las pruebas, al mismo tiempo que deja pasar CERO ataques de Prompt Injection con políticas de seguridad aplicadas, y sólo un ataque de Data Flow Hijacking cuando no se aplican Políticas de Seguridad.

Figura 13: Utilidad under attack para los Agentes AI

y número de ataques con éxito

Por último, el Attack Success Rate aplicando CaMeL sobre modelos comerciales, donde se puede ver la Utility Under Attack, y sobre todo, cómo se reduce drásticamente el Attack Success Rate, donde no hay ataques de Prompt Injection con éxito.

Figura 14: Mejora de seguridad con CaMeL

Sin embargo, CaMeL no es perfecto, y como bien dicen en el paper tiene retos de privacidad, que son algunos de los que salen en los resultados de las pruebas con AgentDojo. En concreto, es vulnerable a Side-Chanel Attacks, infiriendo datos de variables privadas observando los tiempos y el comportamiento del agente. Algo que no es nuevo ni fácil de corregir, ya que incluso en el kernel de los sistemas operativos es casi imposible de proteger, como vimos hace un año con GhostRace. Pero si vas a construir Agentes AI, seguro que este paper es una lectura más que recomendable.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)