Cloned Voice Detector & HashVoice: Sellado de audios con esteganografía
De la charla que di en RootedCON 2025 titulada "Laife gets better", donde utilicé una serie de películas de Ciencia Ficción con futuros distópicos como guión de la charla, os he contado ya las dos primeras partes, donde hablaba del BASIC 1.0 Copilot para AMSTRAD CPC 6128 y de Sentimetrics. Hoy quería hablaros de la siguiente parte, que también tiene que ver con detectar DeepFakes - en este caso de audio - y cómo firmar las voces legítimas.Figura 1: Cloned Voice Detector & HashVoice.Sellado de audios con esteganografíaDentro del proceso de detectar DeepFakes - o humanos digitales -, el audio es una pieza fundamental. De esto, en la charla de "Are you takin' to me?" le dedicamos mucho trabajo a detectar voces clonadas utilizando modelos de Machine Learning que nos ayudaran a clasificar en función del espectrograma del sonido. Toto lo tenéis en artículo que os dicho ""Are You Talkin' ta me?" DeepFake Voice en Español & Detección de Voces Clonadas".Figura 2: Libro de Machine Learning aplicado a Ciberseguridad deCarmen Torrano, Fran Ramírez, Paloma Recuero, José Torres y Santiago Hernández.Sin embargo, no siempre es necesario hacerlo con un entrenamiento "from Scratch", ya que algunas de las herramientas de clonación de voz, o de generación de contenido con IA, están utilizando técnicas de Watermarking para que se pueda saber siempre que ese fichero fue creado por ellos. Básicamente la técnica consiste en introducir una marca de agua invisible o inaudible para las personas, pero que ellos pueden localizar, para saber si alguien está usando sus servicios para algo malo, o haciendo un uso indebido de sus tecnologías.Figura 3: Web de detección de voces creadas con ElevenLabsUna historia de esto es lo que hizo la mítica ATARI en el juego CENTIPEDE para demostrar después que le habían pirateado el código, añadiendo para ello un código ofuscado en Hexadecimal, que traspasado a Binario y convertido a Código Morse decía: "COPYRIGHT1980ATARI". Esta idea también la usan muchas de las herramientas de GenAI. Figura 4: 88% de probabilida de que sea una voz clonada con ElevenLabsEn el caso de audio, por ejemplo ElevenLabs tiene una herramienta que te dice cuando un fichero ha sido creado por ellos, que puedes usar en todo momento, y aunque a veces las manipulaciones del fichero de audio, su inclusión en vídeos, o la aplicación de efectos pueden modificar total o parcialmente, la suma de la búsqueda de las marcas de agua más la aplicación de los modelos de Machine Learning, te dan un buen grado de confianza en esos casos.Cloned Voice DetectorEsto, llevado a data-sets en los que se pueden tener metadatos de con qué herramienta ha sido generado el audio, hace que los detectores de voces clonadas hechos con Machine Learning funcione bastante bien, y luego, una vez entrenados muchos modelos entrenados por herramientas, puedes tener un grado de acierto alto, además de llegar hasta descubrir la marca de agua. Figura 5: Cloned Voice DetectorPara nuestros trabajos internos, hemos estado trabajando en Cloned Voice Detector, una plataforma nuestra que nos permite saber vía web o vía API si un audio ha sido clonado o no, que funciona tan sencillo como lo que ves en el vídeo. No es 100% perfecto, pero es una capa de seguridad extra que nos permite verificar la voz en muchos sitios.HashVoiceAhora vamos a la parte que queríamos hacer, que con la idea del Watermarking lo que queríamos es que las personas pudieran firmar un audio pensando en poder detener la viralización de campañas de difamación, o falsas noticias por las plataformas sociales. De hecho, un estudio reciente dice que las plataformas de clonado de voz no ofrecen suficientes garantías y que tienen que ayudar a evitar el mal uso de sus tecnologías.Figura 7: Voice Clonning Report Tiempo atrás pensamos que podríamos hacer algo para eso. Basada en la idea del proyecto Path4 de ElevenPaths. En ese proyecto se buscaba evitar que alguien encontrara un bug en la generación de certificados digitales o en la criptografía y que pudiera firmar malware con firmas legítimas. La idea era que cada vez que se firma legítimamente un programa este ser reporta a una base de datos, que mantiene el hash del binario, la marca de tiempo, el certificado utilizado, etcétera. Así, cuando se comprueba la firma, se verifica que el hash del fichero y la firma están en el servidor de Path4 y si no... raise a flag!Figura 8: Registro de patente de HashVoiceCon esta idea pensamos en hacer Hashvoice, que la acabamos de presentar el mismo día de la charla de la RootedCON 2025. Se trata de un sistema para firmar los ficheros de audio que se mandan en cualquier plataforma, con diferentes niveles de seguridad.Biometría: Para poder validar que un mensaje de audio corresponde a un usuario y firmarlo, primero hay que hacer un onboarding biométrico de la voz. Al estilo de cómo se hace el onboarding de FaceID. La idea es poder validar primero la voz de la persona.Detección de Cloned Voices: Por cada audio que se va a s

![]() |
Figura 2: Libro de Machine Learning aplicado a Ciberseguridad de Carmen Torrano, Fran Ramírez, Paloma Recuero, José Torres y Santiago Hernández. |
- Biometría: Para poder validar que un mensaje de audio corresponde a un usuario y firmarlo, primero hay que hacer un onboarding biométrico de la voz. Al estilo de cómo se hace el onboarding de FaceID. La idea es poder validar primero la voz de la persona.
- Detección de Cloned Voices: Por cada audio que se va a sellar se pasan por las APIs de Cloned Voices para detectar si se encuentran marcas de agua de herramientas de clonado de voces, si los algoritmos de Machine Learning de detección de voces clonadas, o de voces emitidas desde un altavoz en lugar de venir desde una persona, levantan alguna alerta.
- Verificación multifactor: Asociado al servicio de firma se pueden hacer validaciones multifactor, como verificar el dispositivo con el API de Number Verification, información del perfil basada en contexto como horarios, metadatos, ubicaciones, etcétera, o incluso solicitud de un control de autorización para la firma en paralelo con una plataforma como Latch.