Wikipedia sta fornendo i suoi dati agli sviluppatori di AI per scoraggiare i bot

Ecco la partnership con Kaggle.

Apr 17, 2025 - 15:48
 0
Wikipedia sta fornendo i suoi dati agli sviluppatori di AI per scoraggiare i bot

Wikipedia vuole dissuadere gli sviluppatori di intelligenza artificiale dallo scraping della piattaforma, cioè le tecniche automatizzate per estrarre grandi quantità di dati da pagine web, rilasciando un dataset ottimizzato per l’addestramento di modelli di intelligenza artificiale. Nella fattispecie, la Wikimedia Foundation ha annunciato di aver stretto una partnership con Kaggle, piattaforma di proprietà di Google che ospita dati per il machine learning, per pubblicare in beta un dataset di contenuti strutturati di Wikipedia in inglese e francese.

Il dataset ospitato da Kaggle è stato progettato tenendo presente i flussi di lavoro di machine learning, cosa che renderà più facile per gli sviluppatori di AI accedere ai dati degli articoli in formato leggibile dalle macchine per modellazione, fine-tuning, benchmarking, allineamento e analisi. Il contenuto del dataset è rilasciato con licenza aperta e, a partire dal 15 aprile, include riassunti di ricerche, brevi descrizioni, link alle immagini, dati delle infobox e sezioni degli articoli, escluse le citazioni o elementi non scritti come file audio.

Secondo Wikimedia, le “rappresentazioni JSON ben strutturate dei contenuti di Wikipedia” disponibili per gli utenti di Kaggle dovrebbero essere un'alternativa più attraente allo scraping o parsing del testo grezzo degli articoli, un problema che sta attualmente mettendo sotto sforzo i server di Wikipedia mentre bot AI automatizzati consumano incessantemente la larghezza di banda della piattaforma. A tal proposito, Brenda Flynn, responsabile delle partnership di Kaggle, ha dichiarato:


CLICCA QUI PER CONTINUARE A LEGGERE