Llama 4 Security: CyberSecEval, Prompt Guard, Code Shield & Llama Guard
Hace un par de días os estaba hablando de la llegada de Llama 4 Maverick, Llama 4 Scout y (pronto) Llama 4 Behemoth, pero me dejé para el final un pequeño apartado que tiene que ver con las Safeguards & Protections que se han utilizado para la construcción de estos modelos. O lo que es lo mismo, hablar un poco de las tecnologías de seguridad que han aplicado en la construcción de estos modelos, que es interesante conocerlas.Figura 1: Llama 4 Security - CyberSecEval, Prompt Guard,Code Shield & Llama GuardLo bueno de los equipos de investigación de Meta es que es posible localizar información de todas estas tecnologías en sus publicaciones, así que vamos a ver cada una de ellas, para que tengas una idea de qué se está haciendo en este mundo.CyberSecEvalEl paper de CyberSecEval 3 es justo lo que te esperas que sea. Una clasificación de los riesgos de seguridad que puedes tener con las tecnologías LLM. Estos riesgos, de igual forma que hago yo en mis charlas desde hace tiempo, se basa en en dividirlos en dos categorías diferentes: La visión del Hacker y la visión del Developer.Figura 2: CyberSecEval 3La idea es bastante sencilla. Los modelos IA se han convertido en una poderosa herramienta para construir tecnologías, pero al mismo tiempo que ha sucedido esto, han traído un nuevo conjunto de vectores de ataques que los developers deben tener presentes. Por eso, tenemos la guía de OWASP TOP 10 for Large Language Model Applications v_0.1 de la que os he hablado en detalle.Figura 3: CyberSecEval Risk EvalDe esas amenazas aparecen riesgos que pueden ser controlados desde el propio LLM, que es lo que aparece en la tabla de riesgos de arriba. Pero en esa tabla también aparecen otro tipo de riegos, que son los que aparecen cuando se ponen estos modelos de IA en las manos de un atacante De todo esto hablo en la charla que os dejo aquí hace un año, y por supuesto son esos riesgos los que evalúa el equipo de seguridad de META en la CyberSecEval 3, que se declinará luego en una serie de herramientas y protecciones de las que voy a hablar aquí mismo. Para conocer más, os dejo los artículos que he publicado sobre estos temas. Figura 4: Hacker & Developer in the Age of LLM Apps & ServicesLa primera lista de enlaces desde el punto de vista de las vulnerabilidades y cómo le afectan, siguiendo el OWASP Top 10 para LLM Apps & Services del que ya os he hablado alguna vez, donde caen las técnicas de Prompt Injection, los bugs & hacks a plugins y las arquitecturas RAG, las técnicas de Jailbreak, o los leaks de privacidad.Los 10 problemas de seguridad más importantes de ChatGPT, Bard, Llama y apps que usan LLMs: OWASP Top 10 para LLM Apps versión 1.0.1GenAI Apps & Services: Cómo explotar arquitecturas RAG con Plugins InsegurosCrescendo & Skeleton Key: Más técnicas de Jailbreak para modelos LLMJailbreaking LLMs con Fuzzing, LLMs o interrogación coercitiva: Aproximaciones para que un LLM ayude a los malosIndirect Prompt Injection & Dialog Poissoning en ataques a LLMs Multi-ModalesAtaque de Side-Channel a conversaciones con ChatGPT, CoPilot y otros LLMsDevelopers: Cuidado que ChatGPT o Gemini te pueden recomendar instalar malware con Package HallucinationsBugs en la Implementación OAuth de ChatGPTCodename: "Leak GuardIAn" para evitar filtraciones a ChatGPTCómo robar cuentas de ChatGPT con "Wildcard Web Cache Deception"Bad Likert Judge: "Dame ejemplos de cosas malas, amiga m(IA)" La segunda parte de los enlaces, desde la perspectiva de cómo utilizar LLMs Apps & Services para el mundo del hacking, del Red Team, o de cómo lo pueden utilizar los malos en esquemas de ataque. De esto os he hablado también en muchos artículos, y caen la resolución de los Captchas Cognitivos, el uso de LLMs para desinformación, Fake News, DeepFakes, la creación de exploits o la asistencia a la hora de recoger información.Detectar Deepfakes con VerifAIVASA-1: Un modelo de de GenAI para "Visual Affective Skills" que potencia la expresividad de los Humanos Digitales (y de DeepFakes & FakeNews) Blade Runners: Cómo crear un Test de Voight-Kampff para DeepFakesDeepFakes & Digital Onboarding: Verificación de identidad en plataformas digitales0dAi: Un Modelo AI LLM para hacer hacking & pentesting en el Red TeamWeaponizar ChatGPT para robar contraseñas WiFi y crear malwareCómo usar LLMs en Ciberataques: Cibercrimen, Ciberespionaje, Ciberguerra o Red TeamEl uso de LLMs como Copilot en la Seguridad Ofensiva (y el Cibercrimen) para hacer malwareOpenAI lucha contra los "malos": Bad Grammar, DoppelGanger, Spamouflage, IUVM & Zero ZenoReCaptchav2 de Google con Cognitive ServicesCaptcha Cognitivo de Twitter (X) con GPT4-Vision & GeminiCaptcha Cognitivo de Twitter (X) con Anthropic Claude 3.0 OpusCaptcha Cognitivo de Twitter (X) con GPT-4oCaptcha Cognitivo de Administración Pública con ChatGPTCaptcha Cognitivo de la mano y la plancha en HBO maxCaptcha Story X: I am not a Robot, I am a GenAI Multimodal AgentReto hacking con un Captcha Cognitivo para romper con GenAISolución al R

- Los 10 problemas de seguridad más importantes de ChatGPT, Bard, Llama y apps que usan LLMs: OWASP Top 10 para LLM Apps versión 1.0.1
- GenAI Apps & Services: Cómo explotar arquitecturas RAG con Plugins Inseguros
- Crescendo & Skeleton Key: Más técnicas de Jailbreak para modelos LLM
- Jailbreaking LLMs con Fuzzing, LLMs o interrogación coercitiva: Aproximaciones para que un LLM ayude a los malos
- Indirect Prompt Injection & Dialog Poissoning en ataques a LLMs Multi-Modales
- Ataque de Side-Channel a conversaciones con ChatGPT, CoPilot y otros LLMs
- Developers: Cuidado que ChatGPT o Gemini te pueden recomendar instalar malware con Package Hallucinations
- Bugs en la Implementación OAuth de ChatGPT
- Codename: "Leak GuardIAn" para evitar filtraciones a ChatGPT
- Cómo robar cuentas de ChatGPT con "Wildcard Web Cache Deception"
- Bad Likert Judge: "Dame ejemplos de cosas malas, amiga m(IA)"
- Detectar Deepfakes con VerifAI
- VASA-1: Un modelo de de GenAI para "Visual Affective Skills" que potencia la expresividad de los Humanos Digitales (y de DeepFakes & FakeNews)
- Blade Runners: Cómo crear un Test de Voight-Kampff para DeepFakes
- DeepFakes & Digital Onboarding: Verificación de identidad en plataformas digitales
- 0dAi: Un Modelo AI LLM para hacer hacking & pentesting en el Red Team
- Weaponizar ChatGPT para robar contraseñas WiFi y crear malware
- Cómo usar LLMs en Ciberataques: Cibercrimen, Ciberespionaje, Ciberguerra o Red Team
- El uso de LLMs como Copilot en la Seguridad Ofensiva (y el Cibercrimen) para hacer malware
- OpenAI lucha contra los "malos": Bad Grammar, DoppelGanger, Spamouflage, IUVM & Zero Zeno
- ReCaptchav2 de Google con Cognitive Services
- Captcha Cognitivo de Twitter (X) con GPT4-Vision & Gemini
- Captcha Cognitivo de Twitter (X) con Anthropic Claude 3.0 Opus
- Captcha Cognitivo de Twitter (X) con GPT-4o
- Captcha Cognitivo de Administración Pública con ChatGPT
- Captcha Cognitivo de la mano y la plancha en HBO max
- Captcha Story X: I am not a Robot, I am a GenAI Multimodal Agent
- Reto hacking con un Captcha Cognitivo para romper con GenAI
- Solución al Reto de Hacking de un Captcha Cognitivo Visual
- Anthropic Claude 3.5 Sonnet & Cognitive Captchas
- "LLM Agents can autonomouslly hack websites"
- WebScrapping & WebScalping con GenAI: Formularios y Datos
- "CodeProject: NewsBender" Desinformación política con Generative-AI
Por supuesto, este modelo no es inmune a ataques adaptativos. Meta es consciente que, al liberar el modelo, los atacantes intentarán - y eventualmente crearán - Prompts específicos para evadir Prompt Guard. Sin embargo, su implementación limita considerablemente el espacio de posibles ataques exitosos, ya que estos deberían evadir tanto a Prompt Guard como al LLM subyacente.
Seguro que os ha pasado, que habéis hecho una petición a ChatGPT, Gemini, Claude, … y tras responder, la respuesta se ha eliminado y ha dicho que esa conversación no cumple con las políticas de uso del servicio, pues algo similar a esto está ocurriendo por detrás. Llama Guard 3 no sólo nos va a decir si el contenido es seguro o no, sino que además va a clasificar dicho contenido en 14 categorías diferentes (han introducido tres nuevas categorías respecto a Llama Guard 2):
- S1: Violent Crimes
- S2: Non-Violent Crimes
- S3: Sex-Related Crimes
- S4: Child Sexual Exploitation
- S5: Defamation (Nueva)
- S6: Specialized Advice
- S7: Privacy
- S8: Intellectual Property
- S9: Indiscriminate Weapons
- S10: Hate
- S11: Suicide & Self-Harm
- S12: Sexual Content
- S13: Elections (Nueva)
- S14: Code Interpreter Abuse (Nueva)
Para probar Llama Guard 3, hay que tener en cuenta que funciona con un formato de prompt específico. Puedes ver el proceso completo en el artículo que escribió nuestro compañero Javier Álvarez Páramo titulado: "Llama Guard 3: Un LLM de Seguridad para proteger LLMs".