I ricercatori del MIT hanno sviluppato un innovativo algoritmo di apprendimento per rinforzo che potenzia le capacità decisionali dell’intelligenza artificiale in contesti complessi, come il controllo del traffico urbano. Questo algoritmo, selezionando con astuzia i compiti ottimali per l’addestramento, ha dimostrato di ottenere prestazioni notevolmente migliorate con una quantità di dati significativamente inferiore, portando a un aumento dell’efficienza del 50 volte. Questo approccio non solo ottimizza il tempo e le risorse impiegate, ma apre anche nuove prospettive per un’applicazione più efficace dell’intelligenza artificiale in contesti reali.
Decisioni dell’IA
In settori come la robotica, la medicina e la scienza politica, i ricercatori stanno concentrando i loro sforzi nell’addestrare sistemi di intelligenza artificiale a prendere decisioni rilevanti e incisive. Ad esempio, un sistema di intelligenza artificiale progettato per gestire il traffico in una città congestionata potrebbe non solo ottimizzare i tempi di percorrenza per i conducenti, ma anche migliorare la sicurezza e la sostenibilità del sistema.
Tuttavia, insegnare all’intelligenza artificiale a prendere decisioni efficaci rappresenta una sfida complessa.
Sfide nell’Apprendimento per Rinforzo
I modelli di apprendimento per rinforzo, fondamenta di molti sistemi decisionali dell’intelligenza artificiale, spesso incontrano difficoltà di fronte anche a lievi variazioni nei compiti per cui sono stati addestrati. Ad esempio, nell’ambito del controllo del traffico, un modello potrebbe trovarsi in difficoltà nel gestire incroci con limiti di velocità variabili, configurazioni di corsia complesse o schemi di traffico diversificati.
Per affrontare la sfida di migliorare l’affidabilità dei modelli di apprendimento per rinforzo in compiti complessi e variabili, i ricercatori del MIT hanno introdotto un algoritmo di addestramento più efficiente.
Selezione Strategica dei Compiti nell’Addestramento dell’IA
L’algoritmo adotta una strategia di selezione mirata dei compiti migliori per l’addestramento di un agente di intelligenza artificiale, consentendo a quest’ultimo di eseguire in modo efficace tutti i compiti all’interno di una collezione di compiti correlati. Ad esempio, nel contesto del controllo dei semafori, ogni compito potrebbe rappresentare un incrocio all’interno di un insieme di compiti che comprende tutti gli incroci della città.
Concentrandosi su un numero limitato di incroci che contribuiscono maggiormente all’efficacia complessiva dell’algoritmo, questa metodologia massimizza le prestazioni mantenendo bassi i costi di addestramento.
Miglioramento dell’Efficienza dell’IA con un Algoritmo Semplice
I ricercatori hanno constatato che il loro approccio si è dimostrato tra cinque e 50 volte più efficiente rispetto agli approcci convenzionali su una serie di compiti simulati. Questo incremento di efficienza consente all’algoritmo di apprendere una soluzione ottimale in tempi più brevi, contribuendo infine a migliorare le prestazioni complessive dell’agente di intelligenza artificiale. “Siamo rimasti sorpresi dai notevoli miglioramenti delle prestazioni ottenuti con un algoritmo così semplice, grazie a un pensiero innovativo. Un algoritmo di facile comprensione ha maggiori probabilità di essere adottato dalla comunità poiché è più semplice da implementare e da comprendere”, afferma la Professoressa Associata Cathy Wu, autrice principale dello studio.
La ricerca, condotta in collaborazione con Jung-Hoon Cho, Vindula Jayawardana e Sirui Li, sarà presentata alla Conferenza sui Sistemi di Informazione Neurale.
Bilanciamento degli Approcci di Addestramento
Per addestrare un algoritmo a gestire i semafori in diversi incroci di una città, un ingegnere deve solitamente scegliere tra due approcci principali. Può optare per l’addestramento di un algoritmo separato per ciascun incrocio, utilizzando esclusivamente i dati relativi a quel particolare incrocio, oppure addestrare un unico algoritmo più ampio utilizzando i dati di tutti gli incroci e poi applicarlo a ciascuno di essi.
Tuttavia, entrambi gli approcci presentano dei limiti. Addestrare un algoritmo separato per ciascun compito (ad esempio, un singolo incrocio) richiede tempo e risorse considerevoli, mentre addestrare un unico algoritmo per tutti i compiti spesso porta a prestazioni inferiori.
Wu e il suo team hanno cercato di trovare un equilibrio tra questi due approcci.
Vantaggi del Trasferimento dell’Apprendimento Basato sul Modello
Nel loro approccio, selezionano un sottoinsieme di compiti e addestrano un algoritmo per ciascun compito in modo indipendente. È importante sottolineare che scelgono strategicamente compiti individuali che sono più suscettibili di migliorare le prestazioni complessive dell’algoritmo su tutti i compiti.
Sfruttando una tecnica comune nell’ambito dell’apprendimento per rinforzo, chiamata trasferimento di apprendimento senza esempi, applicano un modello già addestrato a un nuovo compito senza ulteriore addestramento. Grazie al trasferimento dell’apprendimento, il modello spesso ottiene risultati eccezionali nel nuovo compito. “Sappiamo che sarebbe ideale addestrare su tutti i compiti, ma ci siamo chiesti se potessimo ottenere risultati addestrandoci su un sottoinsieme di quei compiti, applicando il risultato a tutti i compiti e comunque ottenere un miglioramento delle prestazioni”, spiega Wu.
Algoritmo MBTL: Ottimizzazione della Selezione dei Compiti
Per individuare i compiti da selezionare al fine di massimizzare le prestazioni attese, i ricercatori hanno sviluppato un algoritmo chiamato Apprendimento per Trasferimento Basato sul Modello (MBTL).
L’algoritmo MBTL si compone di due parti. In primo luogo, modella quanto bene ciascun algoritmo si comporterebbe se fosse addestrato singolarmente su un compito. Successivamente, valuta quanto le prestazioni di ciascun algoritmo si degraderebbero se fossero trasferiti su un altro compito, concetto noto come prestazioni di generalizzazione.
Modellare esplicitamente le prestazioni di generalizzazione consente a MBTL di stimare il valore dell’addestramento su un nuovo compito.
MBTL opera in modo sequenziale, selezionando prima il compito che apporta il maggior incremento delle prestazioni, per poi scegliere compiti aggiuntivi che contribuiscono ai successivi miglioramenti marginali delle prestazioni complessive.
Grazie alla focalizzazione sui compiti più promettenti, MBTL è in grado di migliorare significativamente l’efficienza del processo di addestramento.
Implicazioni per lo Sviluppo Futuro dell’IA
Testando questa tecnica su compiti simulati, tra cui il controllo dei semafori, la gestione degli avvisi di velocità in tempo reale e diversi compiti di controllo classici, i ricercatori hanno osservato un incremento di efficienza compreso tra cinque e 50 volte rispetto ad altri metodi.
Questo significa che è possibile raggiungere la stessa soluzione addestrandosi su un quantitativo di dati notevolmente inferiore. Ad esempio, con un aumento dell’efficienza del 50 volte, l’algoritmo MBTL potrebbe addestrarsi su soli due compiti e ottenere le stesse prestazioni di un metodo standard che utilizza dati provenienti da 100 compiti. “Dal confronto tra i due principali approcci, ciò implica che i dati relativi agli altri 98 compiti non erano necessari o che addestrarsi su tutti i 100 compiti potrebbe confondere l’algoritmo, portando a prestazioni inferiori rispetto alle nostre”, sottolinea Wu.
Con MBTL, anche un modesto incremento del tempo di addestramento potrebbe portare a significativi miglioramenti delle prestazioni.
In futuro, i ricercatori prevedono di sviluppare algoritmi MBTL in grado di affrontare problemi più complessi, come spazi di compiti ad alta dimensionalità. Inoltre, intendono applicare il loro approccio a problemi reali, in particolare nei sistemi di mobilità di prossima generazione.
Riferimento: Model-Based Transfer Learning for Contextual Reinforcement Learning di Jung-Hoon Cho, Vindula Jayawardana, Sirui Li e Cathy Wu, 21 novembre 2024, Informatica > Apprendimento Automatico. arXiv:2408.04498 La ricerca è finanziata, in parte, da un Premio CAREER della National Science Foundation, dal Programma di Borse di Studio per Dottorato della Fondazione Educativa Kwanjeong e da una Borsa di Studio per Dottorato in Robotica di Amazon.