L’intelligenza artificiale (AI) sta diventando sempre più popolare, ma i ricercatori avvertono che l’industria potrebbe presto trovarsi a corto di dati di addestramento, che sono essenziali per alimentare i potenti sistemi di intelligenza artificiale. Questa carenza potrebbe rallentare la crescita dei modelli di intelligenza artificiale, in particolare dei grandi modelli di linguaggio, e potrebbe persino influenzare la rivoluzione dell’AI. Ma perché la mancanza di dati è un problema, considerando la vastità di informazioni disponibili sul web? E c’è un modo per affrontare questo rischio?
Per addestrare algoritmi di intelligenza artificiale potenti, precisi e di alta qualità, sono necessari molti dati. Ad esempio, il modello ChatGPT è stato addestrato su 570 gigabyte di dati di testo, corrispondenti a circa 300 miliardi di parole. Allo stesso modo, l’algoritmo di diffusione stabile, che sta dietro molte app di generazione di immagini di intelligenza artificiale come DALL-E, Lensa e Midjourney, è stato addestrato sul dataset LIAON-5B, composto da 5,8 miliardi di coppie immagine-testo. Se un algoritmo viene addestrato su una quantità insufficiente di dati, produrrà output inaccurati o di bassa qualità.
Inoltre, la qualità dei dati di addestramento è fondamentale. I dati di bassa qualità, come i post sui social media o le fotografie sfocate, sono facili da ottenere, ma non sono sufficienti per addestrare modelli di intelligenza artificiale ad alte prestazioni. I testi prelevati dalle piattaforme dei social media potrebbero essere di parte o prevenuti, o potrebbero contenere disinformazione o contenuti illegali che potrebbero essere replicati dal modello. Ad esempio, quando Microsoft ha cercato di addestrare il suo bot di intelligenza artificiale utilizzando i contenuti di Twitter, ha imparato a produrre output razzisti e misogini.
Ecco perché gli sviluppatori di intelligenza artificiale cercano contenuti di alta qualità, come testi da libri, articoli online, articoli scientifici, Wikipedia e determinati contenuti web filtrati. Ad esempio, l’Assistente Google è stato addestrato su 11.000 romanzi rosa presi dal sito di autopubblicazione Smashwords per renderlo più conversazionale.
L’industria dell’AI ha addestrato sistemi di intelligenza artificiale su dataset sempre più grandi, il che ha portato alla creazione di modelli ad alte prestazioni come ChatGPT o DALL-E 3. Tuttavia, la ricerca mostra che le risorse di dati online stanno crescendo molto più lentamente rispetto ai dataset utilizzati per addestrare l’AI.
Un gruppo di ricercatori ha previsto che esauriremo i dati di testo di alta qualità entro il 2026 se le attuali tendenze di addestramento dell’AI continueranno. Hanno anche stimato che i dati di linguaggio di bassa qualità saranno esauriti tra il 2030 e il 2050, e i dati di immagini di bassa qualità tra il 2030 e il 2060.
Secondo PwC, l’AI potrebbe contribuire fino a 15,7 trilioni di dollari (24,1 trilioni di dollari australiani) all’economia mondiale entro il 2030. Tuttavia, l’esaurimento dei dati utilizzabili potrebbe rallentare questo sviluppo.
Nonostante queste preoccupazioni, ci sono diverse soluzioni per affrontare il rischio di carenza di dati. Gli sviluppatori di AI possono migliorare gli algoritmi in modo che utilizzino in modo più efficiente i dati già disponibili. È probabile che nei prossimi anni saranno in grado di addestrare sistemi di intelligenza artificiale ad alte prestazioni utilizzando meno dati e meno potenza di calcolo. Questo potrebbe anche contribuire a ridurre l’impatto ambientale dell’AI.
Un’altra opzione è utilizzare l’AI per creare dati sintetici da utilizzare nell’addestramento dei sistemi. In altre parole, gli sviluppatori possono generare i dati di cui hanno bisogno, curati per adattarsi al loro specifico modello di intelligenza artificiale. Alcuni progetti già utilizzano dati sintetici provenienti da servizi di generazione di dati come Mostly AI, e questa pratica potrebbe diventare sempre più comune in futuro.
Gli sviluppatori stanno anche cercando contenuti al di fuori dello spazio online gratuito, come quelli detenuti da grandi editori e archivi offline. Ad esempio, i milioni di testi pubblicati prima dell’avvento di Internet potrebbero essere digitalizzati e utilizzati come nuova fonte di dati per i progetti di intelligenza artificiale.
Alcune grandi aziende di contenuti, come News Corp, hanno dichiarato di essere in trattative per accordi di contenuti con sviluppatori di AI. Questi accordi implicherebbero che le aziende di AI paghino per l’accesso ai dati di addestramento, invece di prelevarli gratuitamente da Internet. Questo potrebbe contribuire a ripristinare un equilibrio di potere tra i creatori di contenuti e le aziende di AI.
In conclusione, sebbene la carenza di dati di addestramento possa rappresentare una sfida per l’industria dell’AI, ci sono diverse soluzioni che possono essere adottate per affrontare questo rischio. Gli sviluppatori di AI possono migliorare gli algoritmi, utilizzare dati sintetici e cercare contenuti al di fuori dello spazio online gratuito. Queste strategie potrebbero contribuire a garantire una crescita continua e sostenibile dell’intelligenza artificiale.
Links: