Il paradosso dell'abbondanza negli LLM: più dati portano a meno efficienza
Una nuova ricerca accademica rivela che l'eccessivo pre-addestramento può compromettere la capacità di messa a punto degli LLM
La ricerca incessante di modelli linguistici sempre più grandi, alimentata da vasti insiemi di dati, è stata a lungo una caratteristica distintiva dello sviluppo dell'intelligenza artificiale. Tuttavia, un innovativo studio condotto da un consorzio di prestigiose istituzioni accademiche, tra cui Carnegie Mellon, Stanford, Harvard e Princeton, ha gettato un'ombra di dubbio su questo paradigma dominante. La loro ricerca, guidata da Jacob Mitchell Springer e dettagliata nel documento "Overtrained Language Models Are Harder to Fine-Tune", introduce un concetto critico: il "sovra-addestramento catastrofico".
Questo fenomeno suggerisce che l'estensione del pre-addestramento oltre una certa soglia può paradossalmente degradare la capacità di un modello di essere efficacemente messo a punto, minando in ultima analisi le sue prestazioni. Lo studio sfida l'assunto fondamentale secondo cui una maggiore quantità di dati di pre-addestramento si traduce invariabilmente in modelli superiori.
I ricercatori hanno osservato che, mentre il pre-addestramento con un pool di dati in espansione, rappresentati come token, migliora le capacità iniziali di un modello, può contemporaneamente renderlo più suscettibile al degrado delle prestazioni durante la successiva messa a punto per compiti specifici. Questa osservazione segna una significativa deviazione dalla saggezza prevalente nel settore, evidenziando l'esistenza di una "legge dei rendimenti decrescenti" nel pre-addestramento degli LLM.
LA REGRESSIONE PROGRESSIVA
Un fattore chiave che contribuisce a questo degrado è la "sensibilità progressiva" dei modelli sovra-addestrati. Man mano che il pre-addestramento progredisce, i parametri del modello diventano sempre più sensibili alle modifiche, rendendolo più fragile e vulnerabile al deterioramento delle prestazioni durante le modifiche post-addestramento. Che si tratti di messa a punto delle istruzioni, messa a punto per compiti multimodali o persino di piccole perturbazioni di peso, i modelli sovra-addestrati mostrano una maggiore perdita di capacità apprese in precedenza. Questa maggiore sensibilità porta alla "dimenticanza", dove i punti di forza originali del modello si erodono man mano che vengono introdotti nuovi dati di addestramento.