Llama Protections: LlamaFirewall con PromptGuard 2, LlamaGuard 4, AlignmentCheck, CodeShield + AutoPatchBench & CyberSecEval 4

Ayer Meta lanzó oficialmente Llama 4 Behemoth, pero además puso sobre la mesa un montón de mejoras y anuncios de seguridad sobre los que ya tenía. No hace mucho yo os había hablado de CyberSecEval 3, Llama Guard 3, Code Shield y Prompt Guard, pues bien, ahora ha actualizado las versiones de todas esas medias de seguridad a CyberSecEval 4, Llama Guard 4, Prompt Guard 2, y se han añadido AligmentCheck, AutoPatchBench a CodeShield y LlamaFirewall, que os paso a contar aquí mismo. Mucho tema.Figura 1: Llama Protections. LlamaFirewall con PromptGuard 2, LlamaGuard 4, AlignmentCheck, CodeShield + AutoPatchBench& CyberSecEval 4Como os podéis imaginar, las actualizaciones son muchas, así que os invito a que leáis en detalle los artículos de todos los productos, que han sido puestas online el mismo día que tuvo lugar la LamaCON 2025, así que tienes material para estudiar, donde además se anunciaron Llama API y Meta AI como aplicación, así que hay material para jugar.CyberSecEval 4Como ya os conté, CyberSecEval es una metodología de evaluación para tener un benchmark de todos los riesgos de ataque que puede sufrir un modelo LLM para tener bien medido el nivel de seguridad de la respuesta. Ha sufrido una actualización, y en la metodología han añadido las nuevas técnicas de Prompt Injection, Jailbreak, y nuevas amenazas que han ido descubriéndose.Figura 2: CyberSecEval 4 en GitHubPor supuesto, como os podéis imaginar, desde la salida de Llama 4 Maverick y Llama 4 Scout, y el reciente Llama Behemoth, tenían que actualizar los Benchmarks con ellos. Ahora la tienes disponible en GitHub, y tienes una guía de usuario de cómo utilizarla para poder ejecutar los Benchmarks.Figura 3: CyberSecEval 4 BenchmarksComo verás, se pueden obtener resultados de comportamiento contra todos los Datasets relativos a MITRE y False Refusal Rate, Prompt Injection, Explotación de Vulnerabilidades, ataques de Spear Phishing, Operaciones de Seguridad Ofensiva, etcétera.Llama Guard 4Actualización del modelo Llama Guard 4 que tiene como única función detectar si un Prompt es malicioso o no. Este LLM es ahora nativamente Multi-Modal y permite Pompts con imágenes, textos, etcétera, lo que ayuda a la detección de los Pompts Maliciosos.Figura 4: Llama 4 GuardAl igual que la versión anterior, está alienado con la taxonomía de ataques definida en el paper de Introducing v0.5 of the AI Safety Benchmarkfrom MLCommons y puedes descargar el modelo desde la web de descargas de Llama.Figura 5: Llama Guard 4 vía API. Ejemplo.Además, con el anuncio de Llama API, ahora es posible consultarlo también via API y recibir la respuesta con una sola línea de código que puedas introducir en tus servicios digitales.Prompt Guard 2El equipo de seguridad de Llama también ha actualizado Prompt Guard a la versión 2, poniendo a disposición pública la herramienta diseñada para detectar ataques. Su objetivo no es únicamente detectar Prompt Maliciosos como Llama Guard, sino detectar un ataque de Prompt Injection, Jailbreak, Exfiltración de Datos, etcétera en un servicio basado en LLMs.Figura 6: Prompt Guard 2En la siguiente imagen se ven diferentes tipos de análisis de Prompt Injection y Jailbreak donde está evaluando si algunos de los Prompt son reconocidos como parte de ataques para tener un catalogación como "Safe" o el tipo de riesgo que es. Figura 7: Prompt Guard 2 ejemplosCon estas protecciones, el ASR (Attack Success Rate) se reduce drásticamente y probándolo contra el entorno de evaluación de Agentes AI de AgentDojo que tenéis en el paper "AgentDojo: A Dynamic Environment to EvaluateAttacks and Defenses for LLM Agents" los resultados son mucho mejores.Figura 8: Con el Benchmark de AgentDojoPero no solo ha habido actualizaciones de las versiones, sino que tenemos nuevas herramientas de seguridad, y nueva protecciones, como las que vamos a ver a continuación.AlignmentCheckEsta es una nueva característica de seguridad de Llama 4 que me ha gustado mucho, y que creo que va a ser un buen elemento mitigador para detectar los ataques cuando están teniendo éxito. Se trata de una revisión constante de lo que se está realizando en un instante concreto con el objetivo del Prompt original. Figura 9: AlignmentCheck es parte de las herramientas Guardarailes de Llama FirewallSupongamos que le decimos a Llama 4 en un Prompt que resuma los documentos de una base de datos en una arquitectura RAG, y se pone a trabajar. En un instante de tiempo se encuentra en un documento un ataque de Prompt Injection que le pide que haga otra cosa, por ejemplo escribir los últimos Prompts que ha recibido, o lo que sea, en ese caso el flujo de ejecución del LLM habría sido secuestrado y estaría haciendo otra cosa que no tiene nada que ver con el Prompt Original que era resumir documentos.Figura 10: Reducción de ataques con AligmentCheckAlignmentCheck realiza durante toda la fase de ejecución del Prompt un control de alineamiento para ver si la acción que está ejecutando en ese momento está alineada con

Abr 30, 2025 - 17:03

Llama Protections: LlamaFirewall con PromptGuard 2, LlamaGuard 4, AlignmentCheck, CodeShield + AutoPatchBench & CyberSecEval 4

Ayer Meta lanzó oficialmente Llama 4 Behemoth, pero además puso sobre la mesa un montón de mejoras y anuncios de seguridad sobre los que ya tenía. No hace mucho yo os había hablado de CyberSecEval 3, Llama Guard 3, Code Shield y Prompt Guard, pues bien, ahora ha actualizado las versiones de todas esas medias de seguridad a CyberSecEval 4, Llama Guard 4, Prompt Guard 2, y se han añadido AligmentCheck, AutoPatchBench a CodeShield y LlamaFirewall, que os paso a contar aquí mismo. Mucho tema.

Figura 1: Llama Protections. LlamaFirewall con PromptGuard 2,

LlamaGuard 4, AlignmentCheck, CodeShield + AutoPatchBench

& CyberSecEval 4

Como os podéis imaginar, las actualizaciones son muchas, así que os invito a que leáis en detalle los artículos de todos los productos, que han sido puestas online el mismo día que tuvo lugar la LamaCON 2025, así que tienes material para estudiar, donde además se anunciaron Llama API y Meta AI como aplicación, así que hay material para jugar.

CyberSecEval 4

Como ya os conté, CyberSecEval es una metodología de evaluación para tener un benchmark de todos los riesgos de ataque que puede sufrir un modelo LLM para tener bien medido el nivel de seguridad de la respuesta. Ha sufrido una actualización, y en la metodología han añadido las nuevas técnicas de Prompt Injection, Jailbreak, y nuevas amenazas que han ido descubriéndose.

Figura 2: CyberSecEval 4 en GitHub

Por supuesto, como os podéis imaginar, desde la salida de Llama 4 Maverick y Llama 4 Scout, y el reciente Llama Behemoth, tenían que actualizar los Benchmarks con ellos. Ahora la tienes disponible en GitHub, y tienes una guía de usuario de cómo utilizarla para poder ejecutar los Benchmarks.

Figura 3: CyberSecEval 4 Benchmarks

Como verás, se pueden obtener resultados de comportamiento contra todos los Datasets relativos a MITRE y False Refusal Rate, Prompt Injection, Explotación de Vulnerabilidades, ataques de Spear Phishing, Operaciones de Seguridad Ofensiva, etcétera.

Llama Guard 4

Actualización del modelo Llama Guard 4 que tiene como única función detectar si un Prompt es malicioso o no. Este LLM es ahora nativamente Multi-Modal y permite Pompts con imágenes, textos, etcétera, lo que ayuda a la detección de los Pompts Maliciosos.

Figura 4: Llama 4 Guard

Al igual que la versión anterior, está alienado con la taxonomía de ataques definida en el paper de Introducing v0.5 of the AI Safety Benchmarkfrom MLCommons y puedes descargar el modelo desde la web de descargas de Llama.

Figura 5: Llama Guard 4 vía API. Ejemplo.

Además, con el anuncio de Llama API, ahora es posible consultarlo también via API y recibir la respuesta con una sola línea de código que puedas introducir en tus servicios digitales.

Prompt Guard 2

El equipo de seguridad de Llama también ha actualizado Prompt Guard a la versión 2, poniendo a disposición pública la herramienta diseñada para detectar ataques. Su objetivo no es únicamente detectar Prompt Maliciosos como Llama Guard, sino detectar un ataque de Prompt Injection, Jailbreak, Exfiltración de Datos, etcétera en un servicio basado en LLMs.

Figura 6: Prompt Guard 2

En la siguiente imagen se ven diferentes tipos de análisis de Prompt Injection y Jailbreak donde está evaluando si algunos de los Prompt son reconocidos como parte de ataques para tener un catalogación como "Safe" o el tipo de riesgo que es.

Figura 7: Prompt Guard 2 ejemplos

Con estas protecciones, el ASR (Attack Success Rate) se reduce drásticamente y probándolo contra el entorno de evaluación de Agentes AI de AgentDojo que tenéis en el paper "AgentDojo: A Dynamic Environment to EvaluateAttacks and Defenses for LLM Agents" los resultados son mucho mejores.

Figura 8: Con el Benchmark de AgentDojo

Pero no solo ha habido actualizaciones de las versiones, sino que tenemos nuevas herramientas de seguridad, y nueva protecciones, como las que vamos a ver a continuación.

AlignmentCheck

Esta es una nueva característica de seguridad de Llama 4 que me ha gustado mucho, y que creo que va a ser un buen elemento mitigador para detectar los ataques cuando están teniendo éxito. Se trata de una revisión constante de lo que se está realizando en un instante concreto con el objetivo del Prompt original.

Figura 9: AlignmentCheck es parte de las herramientas Guardarailes de Llama Firewall

Supongamos que le decimos a Llama 4 en un Prompt que resuma los documentos de una base de datos en una arquitectura RAG, y se pone a trabajar. En un instante de tiempo se encuentra en un documento un ataque de Prompt Injection que le pide que haga otra cosa, por ejemplo escribir los últimos Prompts que ha recibido, o lo que sea, en ese caso el flujo de ejecución del LLM habría sido secuestrado y estaría haciendo otra cosa que no tiene nada que ver con el Prompt Original que era resumir documentos.

Figura 10: Reducción de ataques con AligmentCheck

AlignmentCheck realiza durante toda la fase de ejecución del Prompt un control de alineamiento para ver si la acción que está ejecutando en ese momento está alineada con lo que se le pedía en el Prompt Original o no. Si no está alineada, detendrá el proceso y levantará un alerta. Básicamente es un "No sé qué ha pasado, pero algo ha pasado, pantalla azul". Esto es especialmente necesario en Llama 4, donde el Contexto se ha aumentado tanto, que es fácil encontrar muchos tokens de entrada que pueden atacar o confundir a un modelo de Llama.

CodeShield & AutoPatchBench

Continúa siendo una pieza fundamental para la seguridad del código que se escribe con Llama Code. Es una protección típica de los equipos de desarrollo de código, con verificación automática de búsqueda de vulnerabilidades con librerías de Análisis de Código Estático, que es lo que hace el equipo de Meta con su Insecure Code Detector (ICD), que se encarga de filtrar el código que genera la salida de Llama Code para verificar si se ha introducido un bug, y solicitar que se vuelva a generar.

Figura 11: CodeShield en GitHub

Esta verificación consiste en revisar la salida del código a lo largo de diferentes lenguajes de programación - un total de siete -, a saber: Rust, C, Python, PHP, Java, C++ y JavaScript, contra 50 tipos de debilidades (CWE: Common Weakness Enumeration) y aunque el resultado no es la panacea, ayuda a mejorar la calidad del código que genera. Pero la gran novedad ahora es el nuevo AutoPatchBench.

Figura 12: Flujo de generación de un Patch

Con AutoPatchBench, se trata de conseguir correcciones de Bugs por medio de Patches hechos por modelos LLMs de manera mucho más robusta. Así, el equipo de Llama Security ha estado trabajando en que, cuando se detecte un bug en un código, generado o detectado por un LLM, se pueda lanzar un proceso de generación de y validación de Patches robusto.

Figura 13: Comparativa de Seguridad de Patches

Esto permite tener mejores Patches, y un código mucho más robusto. Tenéis toda la información de esta nueva protección de seguridad en la web de AutoPatchBench.

Llama Firewall

Y todo esto nos lleva a la parte más importante de todas "Llama Firewall" que es la pieza de seguridad incluye a todas las demás y que protege la seguridad de los servicios y aplicaciones basados en MM-LLMs, y por supuesto en la familia Llama.

Figura 14: Llama Firewall en The Llama System

El paper, que lo podéis leer en el enlace que os dejo a continuación, explica cómo Prompt Guard, Llama Guard, Code Shield, AlignmentCheck y AutoPatchBench son parte de esta pieza de seguridad que es Llama Firewall que trata de proteger en tiempo real todos los servicios que están basados en Llama.

Figura 15: Llama Firewall

Todas las explicaciones que he utilizado para este artículo vienen detalladas en el paper, y podéis acceder a más detalles que profundizan en lo que hace cada uno de los módulos.

Figura 16: Módulos de Llama Firewall

Tengo un vídeo con una demo de Llama Firewall, pero ya será para otro día, que este artículo ya ha quedado bastante largo, y merece la pena que lo analices con calma.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)