Este programador se cansó de los bots que acosaban (y saqueaban) su web. Ha terminado usando un ingenioso malware contra ellos

Ibrahim Diallo, un programador experto en desarrollo web, ha revelado en su blog una estrategia radical, pero efectiva, para proteger su servidor del constante acoso de bots automáticos, especialmente de aquellos utilizados por compañías de IA para alimentar modelos de lenguaje a gran escala. ¿La solución? Una trampa digital disfrazada de archivo comprimido: una bomba ZIP. Una amenaza silenciosa Diallo parte de una observación inquietante: la mayor parte del tráfico en la Web ya no proviene de humanos, sino de bots. Algunos de ellos son benignos, como los de motores de búsqueda o lectores RSS. Otros, sin embargo, no lo son tanto: entre ellos se encuentran bots diseñados para escanear vulnerabilidades de seguridad, inyectar scripts maliciosos, extraer contenido sin permiso (scraping) o incluso reclutar servidores para redes de ataques DDoS. En el caso de los bots para el entrenamiento de IA, éstos no sólo han mostrado una desmesurada avidez en el consumo de información actualizada (hasta tal punto que han llegado a poner en riesgo la estabilidad de los servidores de la Wikipedia, por ejemplo), sino que acceden a los sitios web ignorando deliberadamente los mecanismos habituales de denegación de permiso usados por los webmasters. Normalmente, a través del tradicional fichero 'robots.txt' (las webs de IA no tienen obligación legal de respetarlo, pero se considera una cuestión de netiqueta): Así que, ante la violación de esa netiqueta por parte de los bots, Diallo decidió contraatacar. El arma: compresión contra compresión Diallo aprovecha una tecnología fundamental del Internet moderno: la compresión GZIP. Los navegadores y bots suelen enviar un código que indica su capacidad para recibir archivos comprimidos, una función que ayuda a agilizar la navegación, al permitir que los servidores web entreguen versiones más ligeras de sus páginas, optimizando el uso de ancho de banda. Pero también ofrece una oportunidad para 'colocar una trampa'. Cuando Diallo detectó actividad maliciosa de bots en su servidor, respondió con un archivo comprimido especialmente diseñado para colapsar al atacante. Estos archivos, conocidos como 'bombas ZIP', son pequeños en apariencia, pero se expanden masivamente al ser descomprimidos, llegando a ocupar hasta 10 GB de memoria. El resultado: muchos bots que descargan el archivo sin saber lo que contienen terminan siendo bloqueados, colapsados o directamente desconectados del servidor que los ejecuta. ¿Cómo funciona una 'bomba ZIP'? El proceso de creación es simple: pasa por recurrir a un breve comando que genera un archivo de 10 GB lleno de ceros, que luego es comprimido con GZIP hasta reducirse a unos 10 MB (esta extrema compresión es posible precisamente por la homogeneidad interna del fichero). En Genbeta Las webs saqueadas por empresas de IA les pagarán con su propia medicina: Cloudflare quiere poner a buen recaudo el contenido 'humano' La implementación es sencilla. El servidor identifica al bot (por su IP, comportamiento sospechoso, o intentos de spam), y responde enviando la 'bomba' comprimida, en lugar de un mero fichero HTML. Cuando, para poder analizar el contenido, el bot descomprime el archivo, es cuando llega el problema. Cuando un bot lo recibe y comienza a descomprimirlo, sufre un desbordamiento de memoria si no está preparado para manejar tamaños tan descomunales. El script malicioso se detiene y, en muchos casos, no vuelve a aparecer. En los foros de Hacker News, la técnica ha generado un amplio debate. Algunos usuarios comparten anécdotas de estrategias similares, como responder con flujos de datos aleatorios desde '/dev/urandom' o crear archivos HTML interminables para ralentizar navegadores. ¿Esto es legal / ético? La técnica de Diallo se sitúa en una zona gris tanto ética como técnica. No instala software malicioso en sistemas ajenos, pero sí genera consecuencias destructivas si los bots no están preparados. Él mismo señala, por otro lado, que las bombas ZIP no son infalibles: pueden ser detectadas, ignoradas o procesadas parcialmente por bots más sofisticados. Sin embargo, su objetivo no es causar daño indiscriminado, sino proteger su espacio digital de intrusos que, en muchos casos, actúan sin consentimiento y con fines dudosos. ¿Es esto útil? Diallo no pretende presentar su estrategia como una solución universal, pero sí es un magnífico ejemplo de la creciente tensión entre creadores de contenido y sistemas automatizados de recopilación de datos: Ante una regulación aún incierta sobre el uso de contenido público por parte de sistemas de inteligencia artificial, algunos desarrolladores comienzan a tomar medidas drásticas para mantener el control sobre su trabajo. Vía | Idiallo.com Imagen | Marcos Merino mediante IA En Genbeta | "No estoy segura": así responde la directora técnica de OpenAI cuando le preguntan si Sora está entr

May 2, 2025 - 19:10

Ibrahim Diallo, un programador experto en desarrollo web, ha revelado en su blog una estrategia radical, pero efectiva, para proteger su servidor del constante acoso de bots automáticos, especialmente de aquellos utilizados por compañías de IA para alimentar modelos de lenguaje a gran escala. ¿La solución? Una trampa digital disfrazada de archivo comprimido: una bomba ZIP.

Una amenaza silenciosa

Diallo parte de una observación inquietante: la mayor parte del tráfico en la Web ya no proviene de humanos, sino de bots. Algunos de ellos son benignos, como los de motores de búsqueda o lectores RSS. Otros, sin embargo, no lo son tanto: entre ellos se encuentran bots diseñados para escanear vulnerabilidades de seguridad, inyectar scripts maliciosos, extraer contenido sin permiso (scraping) o incluso reclutar servidores para redes de ataques DDoS.

En el caso de los bots para el entrenamiento de IA, éstos no sólo han mostrado una desmesurada avidez en el consumo de información actualizada (hasta tal punto que han llegado a poner en riesgo la estabilidad de los servidores de la Wikipedia, por ejemplo), sino que acceden a los sitios web ignorando deliberadamente los mecanismos habituales de denegación de permiso usados por los webmasters.

Normalmente, a través del tradicional fichero 'robots.txt' (las webs de IA no tienen obligación legal de respetarlo, pero se considera una cuestión de netiqueta):

Así que, ante la violación de esa netiqueta por parte de los bots, Diallo decidió contraatacar.

El arma: compresión contra compresión

Diallo aprovecha una tecnología fundamental del Internet moderno: la compresión GZIP. Los navegadores y bots suelen enviar un código que indica su capacidad para recibir archivos comprimidos, una función que ayuda a agilizar la navegación, al permitir que los servidores web entreguen versiones más ligeras de sus páginas, optimizando el uso de ancho de banda.

Pero también ofrece una oportunidad para 'colocar una trampa'.

Cuando Diallo detectó actividad maliciosa de bots en su servidor, respondió con un archivo comprimido especialmente diseñado para colapsar al atacante. Estos archivos, conocidos como 'bombas ZIP', son pequeños en apariencia, pero se expanden masivamente al ser descomprimidos, llegando a ocupar hasta 10 GB de memoria.

El resultado: muchos bots que descargan el archivo sin saber lo que contienen terminan siendo bloqueados, colapsados o directamente desconectados del servidor que los ejecuta.

¿Cómo funciona una 'bomba ZIP'?

El proceso de creación es simple: pasa por recurrir a un breve comando que genera un archivo de 10 GB lleno de ceros, que luego es comprimido con GZIP hasta reducirse a unos 10 MB (esta extrema compresión es posible precisamente por la homogeneidad interna del fichero).

En Genbeta

Las webs saqueadas por empresas de IA les pagarán con su propia medicina: Cloudflare quiere poner a buen recaudo el contenido 'humano'

La implementación es sencilla. El servidor identifica al bot (por su IP, comportamiento sospechoso, o intentos de spam), y responde enviando la 'bomba' comprimida, en lugar de un mero fichero HTML. Cuando, para poder analizar el contenido, el bot descomprime el archivo, es cuando llega el problema.

Cuando un bot lo recibe y comienza a descomprimirlo, sufre un desbordamiento de memoria si no está preparado para manejar tamaños tan descomunales. El script malicioso se detiene y, en muchos casos, no vuelve a aparecer.

En los foros de Hacker News, la técnica ha generado un amplio debate. Algunos usuarios comparten anécdotas de estrategias similares, como responder con flujos de datos aleatorios desde '/dev/urandom' o crear archivos HTML interminables para ralentizar navegadores.

¿Esto es legal / ético?

La técnica de Diallo se sitúa en una zona gris tanto ética como técnica. No instala software malicioso en sistemas ajenos, pero sí genera consecuencias destructivas si los bots no están preparados. Él mismo señala, por otro lado, que las bombas ZIP no son infalibles: pueden ser detectadas, ignoradas o procesadas parcialmente por bots más sofisticados.

Sin embargo, su objetivo no es causar daño indiscriminado, sino proteger su espacio digital de intrusos que, en muchos casos, actúan sin consentimiento y con fines dudosos.

¿Es esto útil?

Diallo no pretende presentar su estrategia como una solución universal, pero sí es un magnífico ejemplo de la creciente tensión entre creadores de contenido y sistemas automatizados de recopilación de datos: Ante una regulación aún incierta sobre el uso de contenido público por parte de sistemas de inteligencia artificial, algunos desarrolladores comienzan a tomar medidas drásticas para mantener el control sobre su trabajo.

Vía | Idiallo.com

Imagen | Marcos Merino mediante IA

En Genbeta | "No estoy segura": así responde la directora técnica de OpenAI cuando le preguntan si Sora está entrenada con vídeos de YouTube

-
La noticia Este programador se cansó de los bots que acosaban (y saqueaban) su web. Ha terminado usando un ingenioso malware contra ellos fue publicada originalmente en Genbeta por Marcos Merino .