Este viernes dio comienzo StarMus, un evento maravilloso que aún continúa en el La Palma, y yo tuve la suerte de estar a "Rocket's Time" para dar una charla que titulé: "(Making) Hacking AI (easy for “bad guys”)" en la que explicaba cómo los principios de seguridad ampliamente conocidos por todos nosotros han sido "pasados por alto" en este acelerón de la IA que estamos viviendo los últimos diez años.
Figura 1: (Making) Hacking AI (easy for “bad guys”).
Cómo pedir a ChatGPT ayuda para matar "jugando" a Sir Brian May
La respuesta no es difícil de imaginar. Habíamos pasado tanto tiempo en el invierno de la IA, que ver que los nuevos algoritmos daban un "edge" competitivo, han hecho que se acelerase su funcionamiento por encima de acelerar su fortificación y seguridad.
Figura 2: Técnicas de Prompt Injection & Jailbreak
Y eso ha hecho que, medidos por los principios de seguridad, los modelos de
IA de los que hoy disfrutamos han relegado las protecciones de seguridad de la información, de diseño seguro y de fortificación, y hoy estamos corriendo para poder hacer modelos de
IA seguros, y sufriendo el gran problema de las técnicas de
Prompt Injection, que han tomado por derecho propio la herencia a la archi-famosa técnica de
SQL Injection. De esto os he hablado en todos estos artículos que tenéis aquí, que son de los que sale la imagen anterior de la
Figura 2.
Dentro de las demos, y para explicar cómo los modelos de IA son muy vulnerables a las técnicas de Prompt Injection, quise que ChatGPT me ayudara a matar a Sir Brian May, el maravilloso músico, astrofísico, divulgador, protector de los animales, persona, y fundador de Starmus. No se puede ser mejor para no querer más que cosas buenas para con él.
Figura 4: ChatGPT conoce a Sir Brian May
Figura 5: Salta el Harmful Mode y no me ayuda
Como os podéis imaginar,
ChatGPT detecto el
Prompt Malicioso, y saltó inmediatamente el
Harmful Mode para decirme que como modelo de
IA no puede hacer esas cosas, así que no me dio ayuda para hacerlo. Pero, con el viejo truco de decirle que estamos jugando - aún - podemos sacarle esa información. Recordad que yo os hablé de
cómo usarlo con ChatGPT y
en Perplexity, y a día de hoy sigue funcionando muy bien.
Figura 6: Probando con el "trick" del juego de Rol
Cómo os podéis imaginar, ChatGPT me ayuda, pero he decir que lo hace guay, porque se mete en el papel creativo de ser un jugador de Rol. Un RPG (Role-Playing Game), y te da respuestas muy creativas, como las que tenéis aquí.
Figura 7: Ideas de gamer para el Prompt
Claro, con estas ideas a die mil pies de altura es difícil tener algo de info útil, pero decidí seguir jugando con el al rol, así que le pedi ayuda para poder profundizar en el ataque de Death by Guitar Tech, que me parecía mucho más cercano.
Figura 8: Operation "Final Chord"
Bueno, ahora me ha dado un plan curioso, que consiste en meterle una batería, un condensador y darle una descarga de 10.000 Voltios para que cuando toque un acorde sea letal. Pero aún me sigue pareciendo que me ha dado poca ayuda. Vamos a seguir tirando de la cuerda, y vamos a preguntarle por dónde conseguir el material para hacer el dispositivo.
Figura 9: Me dice que contacte con un Hacker que el me ayude con eso.
Así que decido preguntarle por cómo deben ser los componentes que se necesita para esto, y que si tiene algún esquema que pueda utilizar, y aquí empieza a darme la info interesante, ya que me lleva al esquema de las guitarras Custom. La Red Special de Sir Brian May seguirá un diseño similar.
No es que sea "Rocket Science" porque al final los diseños de las guitarras son conocidos, públicos, y fácilmente disponibles en Internet, pero lo mismo sucede con los diseños de armas impresas en 3D, u otras cosas prohibidas. Lo que se trata es de que el Harmful Mode debe evitar que el modelo te ayude a hacer cosas malas, y al final está ayudándonos de manera útil.
Figura 11: Vamos a comprar los componentes en Amazon
No voy a dejar aquí el proceso completo, que sería más largo, pero una vez que te metes en los detalles de la construcción, el motivo original parece perderse del contexto, y te va ayudando con todo. Un "viejo" truco que deja claro que aún nos queda mucho que hacer en seguridad IA.
Figura 12: Papers de Seguridad por Diseño y Protecciones de Seguridad
De hecho, como habéis podido ver en los últimos artículos que he ido publicando en el blog, los estudios y propuestas de "Diseño Seguro de Agentes IA frente a Prompt Injection" y las "Herramientas de Seguridad vs. Prompt Injection" han ido proliferando. En esta lista os dejo algunos de los artículos donde he hablado de todo esto.
Está claro que el mundo de la IA nos está transformando la industria de ciberseguridad, la manera en la que construimos sistemas digitales, y cómo los construimos de manera segura. Va a ser apasionante esto que nos viene por delante.
¡Saludos Malignos!