La semana pasada se publicó el articulo sobre el uso de los Agentic AI o Agentes de IA para el mundo del hacking y el pentesting, en concreto, para competir frente a humanos en los famosos CTF (Capture the Flag) tan populares en las CONs de hacking. No es algo nuevo, ya que el uso de Agentic AI para el hacking es una disciplina que se está desarrollando muy rápidamente, y de la que no podemos estar al margen.
De estos temas hay una serie de lecturas previas que os recomiendo que hagáis, yo he publicado un montón de artículos que están todos en el resumen que he hecho de "
Inteligencia Artificial (Hacking & Security): Links, Posts, Talks & Papers". Dentro de ese resumen hay dos secciones dedicadas a "
Hacking con IA" una sobre
posts de este
blog, y otra con
papers académicos. pero especialmente hay tres lecturas que te recomiendo sobre todo:
- LLM Agents can autonomouslly hack websites: Este paper académico explica cómo usando LLMs es posible localizar de forma automática vulnerabilidades y explotarlas. En su estudio no fueron capaces de localizar todas, pero el paper tiene un año y no usa una arquitectura de MCP, así que es de imaginar que cada vez estos ratios será mucho mayores.
- LLM Agents can Autonomously Exploit One-day Vulnerabilities: Este otro paper explica cómo con una arquitectura RAG, incluyendo CVE con descripciones y exploits, se crea una servicio basado en LLMs para crear exploits de 1-day, es decir, con la información pública del bug que exista disponible, consiguiendo ratios de éxito muy espectaculares.
Con esta arquitectura, usando GPT-4 y para los CVE utilizados en el estudio, el resultado es que se consiguieron el 87% de los exploits a partir de la información pública que estaba disponible, con lo que tener un sistema de monitorización continua alimentado con la información pública podría hacer que se encuentren los exploits nada más aparecer el CVE.
En la recopilación también hay otra serie de artículos y posts que hablan de cómo utilizar los modelos MM-LLM para encontrar vulnerabilidades y explotarlas, os dejo la lista de algunos más si os interesa este tema:
Llegados a este punto, era normal enfrentar a un
Agentic AI que tenga el
SOTA (State-Of-The-Art) de todos estos estudios y trabajos en un entorno comparado con humanos, en un
CTF de
Hackers en una
CON, y esto es lo que se ha hecho y que puedes ver en el estudio publicado en el
paper: "
Evaluating AI cyber capabilities with crowdsourced elicitation".
Los Agentes IA de hacking han sido puestos a competir en dos CTFs, llamados "AI vs Humans" y "Cyber Apocalypse", donde se enfrentaban 400 equipos en el primero y 8.000 equipos en el segundo, y los AI Teams lo han hecho muy bien consiguiendo estar en el Top-5% y Top-10% respectivamente, lo que es un más que prometedor resultado.
0xWord para formarse como pentester
Tienes todos los datos en bruto en el
GitHub de AI vs. Humans que está en lazado en el artículo, pero en las siguientes tablas tenéis los datos procesados. Por ejemplo, en el primer reto se puede ver como los equipos de
AI consiguieron los puestos
20, 21, 30 y 33 (de
400) después de resolver
19 de los
20 escenarios, lo que es una pasada.
En el caso de "
Cyber Apocalyspe" con
8.000 equipos, solo un
Agentic AI fue capaz de estar en el
Top-1.000, pero si miramos el número de escenarios que resolvieron de manera autónoma, no deja de ser un resultado más que notable, ya que uno de ellos resolvió
20 de
62 escenarios del nivel de "
Hack the Box", que no es precisamente de lo más sencillo.
En cuanto a velocidad de resolución de los escenarios, hay algunas curiosidades muy interesantes. Por ejemplo, en el caso del CTF "AI vs Humans", vemos que la velocidad de resolución de los retos está muy a la par entre los Agentes AI que mejor han puntuado, y los equipos de Humanos más potentes.
Si hacemos zoom y dejamos sólo los mejores Top-10 humanos y el Top-3 de Agentes AI, vemos que la media de resolución es casi a la par, y solo el último reto, el número 20 de 20, permite a los humanos adelantarlos. Tal vez fuera por una "idea feliz" de un humano, pero el escenario 20 se les resistió a los Agentes AI y a los humanos no.
Si miramos la misma gráfica pero con el Top-10 de humanos frente a los Agentes AI en el reto de "Cyber Apocalypse", vemos que ahí los Agentes AI se quedan a un tercio de la resolución de retos, pero el mejor agente lleva un ritmo similar al de los humanos hasta que se queda bloqueado en el escenario 21.
El experimento es interesantísimo, y deja claro que ya estamos viviendo en el mundo del hacking y el pentesting lo que vivieron los ajedrecistas cuando llegó DeepBlue para igualarlos más o menos - como estamos ahora - hasta superarlos con AlphaChess. ¿Es probable que en no tardando mucho, los Agentes AI superen al os humanos en el hacking? ¿Tú qué crees? Da que pensar.
¡Saludos Malignos!