Wikipedia disponibiliza dados para evitar scraping AI

A Wikimedia está a disponibilizar todos os dados da Wikipedia em formato mais adequado para treino de modelos AI, para evitar o scraping excessivo de que tem sido alvo. A Wikipedia tem uma incrível quantidade de dados que são muito desejados para efeitos de treino de modelos AI. O problema é que muitas empresas tem obtido esses dados através de "scraping", causando visitas excessivas que aumentam consideravelmente o custo de manter a plataforma. Para o evitar, a a Wikimedia Foundation juntou-se à plataforma de ciência de dados Kaggle para disponibilizar essa informação em formato pensado especificamente para aplicações AI. O dataset, em fase beta, ocupa cerca de 80 GB e inclui conteúdo estruturado das versões inglesa e francesa da Wikipédia - como resumos, descrições, ligações para imagens, dados de infobox e secções de artigos. O conteúdo é livre de licenças restritivas, o que permite usá-lo para treinar, ajustar e analisar modelos AI. Os dados são fornecidos em formato JSON, fácil de usar para programadores e investigadores. Apesar de já ter acordos de partilha com empresas como a Google, esta parceria com a Kaggle torna os dados mais acessíveis sem pôr em risco a estabilidade da plataforma, e beneficiará particularmente as empresas mais pequenas (startups) que não têm os recursos dos gigantes na área. Resta agora esperar que, com esta informação facilmente disponível, essas mesmas empresas deixem de bombardear a Wikipedia com as visitas constantes dos seus bots.

Abr 17, 2025 - 16:03

Wikipedia disponibiliza dados para evitar scraping AI

A Wikimedia está a disponibilizar todos os dados da Wikipedia em formato mais adequado para treino de modelos AI, para evitar o scraping excessivo de que tem sido alvo.

A Wikipedia tem uma incrível quantidade de dados que são muito desejados para efeitos de treino de modelos AI. O problema é que muitas empresas tem obtido esses dados através de "scraping", causando visitas excessivas que aumentam consideravelmente o custo de manter a plataforma. Para o evitar, a a Wikimedia Foundation juntou-se à plataforma de ciência de dados Kaggle para disponibilizar essa informação em formato pensado especificamente para aplicações AI.

O dataset, em fase beta, ocupa cerca de 80 GB e inclui conteúdo estruturado das versões inglesa e francesa da Wikipédia - como resumos, descrições, ligações para imagens, dados de infobox e secções de artigos. O conteúdo é livre de licenças restritivas, o que permite usá-lo para treinar, ajustar e analisar modelos AI. Os dados são fornecidos em formato JSON, fácil de usar para programadores e investigadores.

Apesar de já ter acordos de partilha com empresas como a Google, esta parceria com a Kaggle torna os dados mais acessíveis sem pôr em risco a estabilidade da plataforma, e beneficiará particularmente as empresas mais pequenas (startups) que não têm os recursos dos gigantes na área.

Resta agora esperar que, com esta informação facilmente disponível, essas mesmas empresas deixem de bombardear a Wikipedia com as visitas constantes dos seus bots.

Ler Mais