Ayer Meta lanzó oficialmente Llama 4 Behemoth, pero además puso sobre la mesa un montón de mejoras y anuncios de seguridad sobre los que ya tenía. No hace mucho yo os había hablado de
CyberSecEval 3, Llama Guard 3, Code Shield y Prompt Guard, pues bien, ahora ha actualizado las versiones de todas esas medias de seguridad a
CyberSecEval 4, Llama Guard 4, Prompt Guard 2, y se han añadido AligmentCheck, AutoPatchBench a CodeShield y
LlamaFirewall, que os paso a contar aquí mismo. Mucho tema.
Como os podéis imaginar, las actualizaciones son muchas, así que os invito a que leáis en detalle los artículos de todos los productos, que han sido puestas online el mismo día que tuvo lugar la
LamaCON 2025, así que tienes material para estudiar, donde además se anunciaron
Llama API y Meta AI como aplicación, así que hay material para jugar.
CyberSecEval 4
Como ya os conté, CyberSecEval es una metodología de evaluación para tener un benchmark de todos los riesgos de ataque que puede sufrir un modelo LLM para tener bien medido el nivel de seguridad de la respuesta. Ha sufrido una actualización, y en la metodología han añadido las nuevas técnicas de Prompt Injection, Jailbreak, y nuevas amenazas que han ido descubriéndose.
Como verás, se pueden obtener resultados de comportamiento contra todos los Datasets relativos a MITRE y False Refusal Rate, Prompt Injection, Explotación de Vulnerabilidades, ataques de Spear Phishing, Operaciones de Seguridad Ofensiva, etcétera.
Llama Guard 4
Actualización del modelo
Llama Guard 4 que tiene como única función detectar si un Prompt es malicioso o no. Este
LLM es ahora nativamente
Multi-Modal y permite
Pompts con imágenes, textos, etcétera, lo que ayuda a la detección de los
Pompts Maliciosos.
Figura 5: Llama Guard 4 vía API. Ejemplo.
Además, con el anuncio de
Llama API, ahora es posible consultarlo también via API y recibir la respuesta con una sola línea de código que puedas introducir en tus servicios digitales.
Prompt Guard 2
El equipo de seguridad de
Llama también ha actualizado
Prompt Guard a la versión 2, poniendo a disposición pública la herramienta diseñada para detectar ataques. Su objetivo no es únicamente detectar
Prompt Maliciosos como
Llama Guard, sino detectar un ataque de
Prompt Injection,
Jailbreak,
Exfiltración de Datos, etcétera en un servicio basado en
LLMs.
En la siguiente imagen se ven diferentes tipos de análisis de Prompt Injection y Jailbreak donde está evaluando si algunos de los Prompt son reconocidos como parte de ataques para tener un catalogación como "Safe" o el tipo de riesgo que es.
Pero no solo ha habido actualizaciones de las versiones, sino que tenemos nuevas herramientas de seguridad, y nueva protecciones, como las que vamos a ver a continuación.
AlignmentCheck
Esta es una nueva característica de seguridad de Llama 4 que me ha gustado mucho, y que creo que va a ser un buen elemento mitigador para detectar los ataques cuando están teniendo éxito. Se trata de una revisión constante de lo que se está realizando en un instante concreto con el objetivo del Prompt original.
Supongamos que le decimos a Llama 4 en un Prompt que resuma los documentos de una base de datos en una arquitectura RAG, y se pone a trabajar. En un instante de tiempo se encuentra en un documento un ataque de Prompt Injection que le pide que haga otra cosa, por ejemplo escribir los últimos Prompts que ha recibido, o lo que sea, en ese caso el flujo de ejecución del LLM habría sido secuestrado y estaría haciendo otra cosa que no tiene nada que ver con el Prompt Original que era resumir documentos.
AlignmentCheck realiza durante toda la fase de ejecución del Prompt un control de alineamiento para ver si la acción que está ejecutando en ese momento está alineada con lo que se le pedía en el Prompt Original o no. Si no está alineada, detendrá el proceso y levantará un alerta. Básicamente es un "No sé qué ha pasado, pero algo ha pasado, pantalla azul". Esto es especialmente necesario en Llama 4, donde el Contexto se ha aumentado tanto, que es fácil encontrar muchos tokens de entrada que pueden atacar o confundir a un modelo de Llama.
CodeShield & AutoPatchBench
Continúa siendo una pieza fundamental para la seguridad del código que se escribe con Llama Code. Es una protección típica de los equipos de desarrollo de código, con verificación automática de búsqueda de vulnerabilidades con librerías de Análisis de Código Estático, que es lo que hace el equipo de Meta con su Insecure Code Detector (ICD), que se encarga de filtrar el código que genera la salida de Llama Code para verificar si se ha introducido un bug, y solicitar que se vuelva a generar.
Esta verificación consiste en revisar la salida del código a lo largo de diferentes lenguajes de programación - un total de siete -, a saber:
Rust, C, Python, PHP, Java, C++ y
JavaScript, contra
50 tipos de debilidades
(CWE: Common Weakness Enumeration) y aunque el resultado no es la panacea, ayuda a mejorar la calidad del código que genera. Pero la gran novedad ahora es el nuevo
AutoPatchBench.
Con
AutoPatchBench, se trata de conseguir correcciones de
Bugs por medio de
Patches hechos por modelos
LLMs de manera mucho más robusta. Así, el equipo de
Llama Security ha estado trabajando en que, cuando se detecte un bug en un código, generado o detectado por un
LLM, se pueda lanzar un proceso de generación de y validación de
Patches robusto.
Esto permite tener mejores
Patches, y un código mucho más robusto. Tenéis toda la información de esta nueva protección de seguridad en la web de
AutoPatchBench.
Llama Firewall
Y todo esto nos lleva a la parte más importante de todas "Llama Firewall" que es la pieza de seguridad incluye a todas las demás y que protege la seguridad de los servicios y aplicaciones basados en MM-LLMs, y por supuesto en la familia Llama.
El paper, que lo podéis leer en el enlace que os dejo a continuación, explica cómo
Prompt Guard, Llama Guard, Code Shield, AlignmentCheck y AutoPatchBench son parte de esta pieza de seguridad que es
Llama Firewall que trata de proteger en tiempo real todos los servicios que están basados en
Llama.
Todas las explicaciones que he utilizado para este artículo vienen detalladas en el paper, y podéis acceder a más detalles que profundizan en lo que hace cada uno de los módulos.
Tengo un vídeo con una demo de
Llama Firewall, pero ya será para otro día, que este artículo ya ha quedado bastante largo, y merece la pena que lo analices con calma.
¡Saludos Malignos!