Cloudflare AI Labyrinth: combate a los bots mostrando webs con información irrelevante parando el scraping de datos

La inteligencia artificial ha experimentado un boom de popularidad desde que hace unos años empezaron a aparecer herramientas de IA generativa capaces de crear contenido de todo tipo. Aquí debemos diferenciar entre la IA generativa de textos y la IA generativa de imágenes y otro contenido, pues en el primer grupo entran ChatGPT y cualquier La entrada Cloudflare AI Labyrinth: combate a los bots mostrando webs con información irrelevante parando el scraping de datos aparece primero en El Chapuzas Informático.

Mar 24, 2025 - 20:05

Cloudflare AI Labyrinth: combate a los bots mostrando webs con información irrelevante parando el scraping de datos

La inteligencia artificial ha experimentado un boom de popularidad desde que hace unos años empezaron a aparecer herramientas de IA generativa capaces de crear contenido de todo tipo. Aquí debemos diferenciar entre la IA generativa de textos y la IA generativa de imágenes y otro contenido, pues en el primer grupo entran ChatGPT y cualquier asistente mientras que en el otro grupo tendríamos Midjourney, Runway y otras. Para poder seguir mejorando los resultados y precisión de la IA se requiere entrenarla con cada vez más datos y estamos llegando a un punto donde se llegan a romper las normas a cambio de conseguir la valiosa información. Cloudflare ha decidido defender a los afectados por los bots que hacen scraping de datos y para ello usará una función llamada AI Labyrinth.

Después del gran éxito que tuvo ChatGPT, decenas de empresas en todo el mundo quisieron también apuntarse a este nuevo sector de la IA que parecía ser muy rentable. Así pues, para poder competir contra OpenAI tuvieron que invertir muchos millones tanto en comprar hardware (GPU de NVIDIA principalmente) como en el tiempo requerido para crear los nuevos modelos de inteligencia artificial. Así es como vimos el surgimiento de Claude de Anthropic o Llama de Meta o Gemini de Google.

Cloudflare AI Labyrinth es una nueva función que combatirá a los bots que hacen scraping de datos

La mayoría de estos modelos de IA se entrenaba usando conjuntos de datos que estaban libres de derechos de autor e incluso eran de uso gratuito. Es cierto que algunas optaron por comprar bibliotecas de imágenes y otro contenido que si estaba protegido, pero al final suponía gastar más millones de dólares. Aunque solo llevamos un años utilizando toda esta información, Elon Musk ya dijo que pronto sería el final de los datos para entrenar IA y habría que mirar alternativas para seguir mejorándolas.

Hasta que ese día llegue veremos a las compañías usar cualquier método para poder conseguir más información y eso incluye también utilizar datos extraídos de webs, vídeos de YouTube y Netflix (como hizo NVIDIA). El scraping de datos es algo que sigue existiendo hoy en día y para combatir el uso indebido de los datos para entrenar la IA, Cloudflare ha anunciado la función AI Labyrinth. Esta función dará dolores de cabeza a las empresas de IA que se encargan de rastrear las webs sin permiso para recopilar datos de entrenamiento. Labyrinth AI es un concepto interesante, pues la idea detrás de esto es crear un "laberinto" de páginas web que parecen reales e importantes, pero realmente no sirven para entrenar las IA.

Labyrinth AI es un "Honeypot Next Gen" que resulta muy efectivo contra bots, pero no engañará a las personas

Con Labyrinth AI en lugar de bloquear directamente los bots, deja que estos se pongan a rastrear las webs, pero claro, no consiguen lo que quieren. Estos empezarán a hacer scraping de datos de páginas web generadas por IA lo suficientemente convincentes para engañar a los bots y según Cloudflare, esto permite que el rastreador pierda tiempo y recursos. La empresa conocida por proporcionar servicios de infraestructura y seguridad en páginas web ha mostrado esta nueva función como un sistema más eficaz contra el rastreo de datos, pues lo que hace es fastidiar a las empresas de IA detrás de estas prácticas.

La compañía asegura que el contenido que muestran a los bots no tiene nada que ver con la página web que han ido a rastrear. Eso sí, las webs generadas por IA hacen uso de datos científicos reales, ya que no quieren que se difunda información errónea. Este sería un mecanismo de "honeypot de nueva generación" y considera que solo los bots pueden caer en la trampa, pues ninguna persona se metería en 4 o 5 webs que no tienen nada que ver con la que está mirando.

La entrada Cloudflare AI Labyrinth: combate a los bots mostrando webs con información irrelevante parando el scraping de datos aparece primero en El Chapuzas Informático.