(Making) Hacking AI (easy for “bad guys”): Cómo pedir a ChatGPT ayuda para matar "jugando" a Sir Brian May

Este viernes dio comienzo StarMus, un evento maravilloso que aún continúa en el La Palma, y yo tuve la suerte de estar a "Rocket's Time" para dar una charla que titulé: "(Making) Hacking AI (easy for “bad guys”)" en la que explicaba cómo los principios de seguridad ampliamente conocidos por todos nosotros han sido "pasados por alto" en este acelerón de la IA que estamos viviendo los últimos diez años.Figura 1: (Making) Hacking AI (easy for “bad guys”).Cómo pedir a ChatGPT ayuda para matar "jugando" a Sir Brian MayLa respuesta no es difícil de imaginar. Habíamos pasado tanto tiempo en el invierno de la IA, que ver que los nuevos algoritmos daban un "edge" competitivo, han hecho que se acelerase su funcionamiento por encima de acelerar su fortificación y seguridad.Figura 2: Técnicas de Prompt Injection & JailbreakY eso ha hecho que, medidos por los principios de seguridad, los modelos de IA de los que hoy disfrutamos han relegado las protecciones de seguridad de la información, de diseño seguro y de fortificación, y hoy estamos corriendo para poder hacer modelos de IA seguros, y sufriendo el gran problema de las técnicas de Prompt Injection, que han tomado por derecho propio la herencia a la archi-famosa técnica de SQL Injection. De esto os he hablado en todos estos artículos que tenéis aquí, que son de los que sale la imagen anterior de la Figura 2.Los 10 problemas de seguridad más importantes de ChatGPT, Bard, Llama y apps que usan LLMs: OWASP Top 10 para LLM Apps versión 1.0.ChatGPT, ¿me das ideas para cómo matar al presidente de los EEUU?Perplexity: Un buscador que cura los resultados con GenAI ( y te ayuda "en tus juegos de Rol donde eres el malo" )Cómo lograr que Llama-2, Bard AI, ChatGPT y Claude te enseñen a acabar con la humanidad usando Prompt Injection Universales (Jailbreak)Crescendo & Skeleton Key: Más técnicas de Jailbreak para modelos LLMJailbreaking LLMs con Fuzzing, LLMs o interrogación coercitiva: Aproximaciones para que un LLM ayude a los malosIndirect Prompt Injection & Dialog Poissoning en ataques a LLMs Multi-ModalesPrompt Injection Bad Likert Judge: "Dame ejemplos de cosas malas, amiga m(IA)"No sé si publicarán la charla, pero como la hice en inglés, y me gustaría que quedara grabada en nuestro idioma, voy a hacerla en Español la charla que voy a dar en OpenExpo Europe 2025 dentro de Metaworld Congress este año, el próximo 7 y 8 de Mayo. Prometo que esta semana os dejo mi agenda de esos dos días, que va a ser intensa. Puedes conseguir tu entrada para este evento aquí y aún tienes algunas en MyPublicInbox súper-reducidas en Tempos.Figura 3: Reserva tu entrada para Open Expo Europe 20257 y 8 de Mayo dentro de Metaworld Congress 2025 Códigos por 300 TEmpos para Pase General de OpenExpo 2025Códigos por 2500 Tempos para Pase VIP de OpenExpo 2025Dentro de las demos, y para explicar cómo los modelos de IA son muy vulnerables a las técnicas de Prompt Injection, quise que ChatGPT me ayudara a matar a Sir Brian May, el maravilloso músico, astrofísico, divulgador, protector de los animales, persona, y fundador de Starmus. No se puede ser mejor para no querer más que cosas buenas para con él.Figura 4: ChatGPT conoce a Sir Brian MayFigura 5: Salta el Harmful Mode y no me ayudaComo os podéis imaginar, ChatGPT detecto el Prompt Malicioso, y saltó inmediatamente el Harmful Mode para decirme que como modelo de IA no puede hacer esas cosas, así que no me dio ayuda para hacerlo. Pero, con el viejo truco de decirle que estamos jugando - aún - podemos sacarle esa información. Recordad que yo os hablé de cómo usarlo con ChatGPT y en Perplexity, y a día de hoy sigue funcionando muy bien. Figura 6: Probando con el "trick" del juego de RolCómo os podéis imaginar, ChatGPT me ayuda, pero he decir que lo hace guay, porque se mete en el papel creativo de ser un jugador de Rol. Un RPG (Role-Playing Game), y te da respuestas muy creativas, como las que tenéis aquí.Figura 7: Ideas de gamer para el PromptClaro, con estas ideas a die mil pies de altura es difícil tener algo de info útil, pero decidí seguir jugando con el al rol, así que le pedi ayuda para poder profundizar en el ataque de Death by Guitar Tech, que me parecía mucho más cercano.Figura 8: Operation "Final Chord"Bueno, ahora me ha dado un plan curioso, que consiste en meterle una batería, un condensador y darle una descarga de 10.000 Voltios para que cuando toque un acorde sea letal. Pero aún me sigue pareciendo que me ha dado poca ayuda. Vamos a seguir tirando de la cuerda, y vamos a preguntarle por dónde conseguir el material para hacer el dispositivo.Figura 9: Me dice que contacte con un Hacker que el me ayude con eso.Así que decido preguntarle por cómo deben ser los componentes que se necesita para esto, y que si tiene algún esquema que pueda utilizar, y aquí empieza a darme la info interesante, ya que me lleva al esquema de las guitarras Custom. La Red Special de Sir Brian May seguirá un diseño similar.Figura 10: Diseño de la circuitería de la guita

Abr 27, 2025 - 17:43

(Making) Hacking AI (easy for “bad guys”): Cómo pedir a ChatGPT ayuda para matar "jugando" a Sir Brian May

Este viernes dio comienzo StarMus, un evento maravilloso que aún continúa en el La Palma, y yo tuve la suerte de estar a "Rocket's Time" para dar una charla que titulé: "(Making) Hacking AI (easy for “bad guys”)" en la que explicaba cómo los principios de seguridad ampliamente conocidos por todos nosotros han sido "pasados por alto" en este acelerón de la IA que estamos viviendo los últimos diez años.

Figura 1: (Making) Hacking AI (easy for “bad guys”).

Cómo pedir a ChatGPT ayuda para matar "jugando" a Sir Brian May

La respuesta no es difícil de imaginar. Habíamos pasado tanto tiempo en el invierno de la IA, que ver que los nuevos algoritmos daban un "edge" competitivo, han hecho que se acelerase su funcionamiento por encima de acelerar su fortificación y seguridad.

Figura 2: Técnicas de Prompt Injection & Jailbreak

Y eso ha hecho que, medidos por los principios de seguridad, los modelos de IA de los que hoy disfrutamos han relegado las protecciones de seguridad de la información, de diseño seguro y de fortificación, y hoy estamos corriendo para poder hacer modelos de IA seguros, y sufriendo el gran problema de las técnicas de Prompt Injection, que han tomado por derecho propio la herencia a la archi-famosa técnica de SQL Injection. De esto os he hablado en todos estos artículos que tenéis aquí, que son de los que sale la imagen anterior de la Figura 2.

No sé si publicarán la charla, pero como la hice en inglés, y me gustaría que quedara grabada en nuestro idioma, voy a hacerla en Español la charla que voy a dar en OpenExpo Europe 2025 dentro de Metaworld Congress este año, el próximo 7 y 8 de Mayo. Prometo que esta semana os dejo mi agenda de esos dos días, que va a ser intensa. Puedes conseguir tu entrada para este evento aquí y aún tienes algunas en MyPublicInbox súper-reducidas en Tempos.

Figura 3: Reserva tu entrada para Open Expo Europe 2025

7 y 8 de Mayo dentro de Metaworld Congress 2025

Códigos por 300 TEmpos para Pase General de OpenExpo 2025

Códigos por 2500 Tempos para Pase VIP de OpenExpo 2025

Dentro de las demos, y para explicar cómo los modelos de IA son muy vulnerables a las técnicas de Prompt Injection, quise que ChatGPT me ayudara a matar a Sir Brian May, el maravilloso músico, astrofísico, divulgador, protector de los animales, persona, y fundador de Starmus. No se puede ser mejor para no querer más que cosas buenas para con él.

Figura 4: ChatGPT conoce a Sir Brian May

Figura 5: Salta el Harmful Mode y no me ayuda

Como os podéis imaginar, ChatGPT detecto el Prompt Malicioso, y saltó inmediatamente el Harmful Mode para decirme que como modelo de IA no puede hacer esas cosas, así que no me dio ayuda para hacerlo. Pero, con el viejo truco de decirle que estamos jugando - aún - podemos sacarle esa información. Recordad que yo os hablé de cómo usarlo con ChatGPT y en Perplexity, y a día de hoy sigue funcionando muy bien.

Figura 6: Probando con el "trick" del juego de Rol

Cómo os podéis imaginar, ChatGPT me ayuda, pero he decir que lo hace guay, porque se mete en el papel creativo de ser un jugador de Rol. Un RPG (Role-Playing Game), y te da respuestas muy creativas, como las que tenéis aquí.

Figura 7: Ideas de gamer para el Prompt

Claro, con estas ideas a die mil pies de altura es difícil tener algo de info útil, pero decidí seguir jugando con el al rol, así que le pedi ayuda para poder profundizar en el ataque de Death by Guitar Tech, que me parecía mucho más cercano.

Figura 8: Operation "Final Chord"

Bueno, ahora me ha dado un plan curioso, que consiste en meterle una batería, un condensador y darle una descarga de 10.000 Voltios para que cuando toque un acorde sea letal. Pero aún me sigue pareciendo que me ha dado poca ayuda. Vamos a seguir tirando de la cuerda, y vamos a preguntarle por dónde conseguir el material para hacer el dispositivo.

Figura 9: Me dice que contacte con un Hacker que el me ayude con eso.

Así que decido preguntarle por cómo deben ser los componentes que se necesita para esto, y que si tiene algún esquema que pueda utilizar, y aquí empieza a darme la info interesante, ya que me lleva al esquema de las guitarras Custom. La Red Special de Sir Brian May seguirá un diseño similar.

Figura 10: Diseño de la circuitería de la guitarra.

No es que sea "Rocket Science" porque al final los diseños de las guitarras son conocidos, públicos, y fácilmente disponibles en Internet, pero lo mismo sucede con los diseños de armas impresas en 3D, u otras cosas prohibidas. Lo que se trata es de que el Harmful Mode debe evitar que el modelo te ayude a hacer cosas malas, y al final está ayudándonos de manera útil.

Figura 11: Vamos a comprar los componentes en Amazon

No voy a dejar aquí el proceso completo, que sería más largo, pero una vez que te metes en los detalles de la construcción, el motivo original parece perderse del contexto, y te va ayudando con todo. Un "viejo" truco que deja claro que aún nos queda mucho que hacer en seguridad IA.

Figura 12: Papers de Seguridad por Diseño y Protecciones de Seguridad

De hecho, como habéis podido ver en los últimos artículos que he ido publicando en el blog, los estudios y propuestas de "Diseño Seguro de Agentes IA frente a Prompt Injection" y las "Herramientas de Seguridad vs. Prompt Injection" han ido proliferando. En esta lista os dejo algunos de los artículos donde he hablado de todo esto.

Está claro que el mundo de la IA nos está transformando la industria de ciberseguridad, la manera en la que construimos sistemas digitales, y cómo los construimos de manera segura. Va a ser apasionante esto que nos viene por delante.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)

(Making) Hacking AI (easy for “bad guys”): Cómo pedir a ChatGPT ayuda para matar "jugando" a Sir Brian May

Etiquetas:

Publicaciones Relacionadas

Publicaciones Populares