Come l’auto-riflessione migliora l’accuratezza dei chatbot di grandi modelli di linguaggio

Un robot che guarda equazioni su una lavagna.

(Un robot, forse cercando di capire dove ha sbagliato. Credito immagine: Phonlamai Photo/shutterstock.com)

Un gruppo di ricercatori ha scoperto un modo per migliorare i chatbot di grandi modelli di linguaggio (LLM), come ChatGPT-4, aumentando la loro accuratezza del 21 percento. In un nuovo articolo preprint, il team spiega che ciò è stato possibile permettendo agli agenti di intelligenza artificiale (AI) di riflettere sui propri errori. Utilizzando un processo chiamato Reflexion, gli agenti sono stati dotati di memoria dinamica e capacità di auto-riflessione per migliorare il loro ragionamento e la scelta di azioni specifiche per il compito. Secondo il team, l’intelligenza umana impara dagli errori attraverso l’auto-riflessione e l’analisi dei passi falsi. Il team ha cercato di replicare questo processo permettendo agli agenti di AI di analizzare le proprie azioni e errori. Nella ricerca, gli agenti di AI sono stati sfidati a risolvere vari problemi in AlfWorld, un ambiente basato su testo utilizzato per addestrare e testare gli agenti di AI. Prima dell’implementazione della tecnica riflessiva, l’agente ha raggiunto un’accuratezza del 63 percento. Tuttavia, quando è stata data la capacità di riflettere sulle sue azioni e errori, l’agente è riuscito a raggiungere un’accuratezza del 97 percento, risolvendo 130 su 134 compiti. Ad esempio, in un compito, l’agente di linguaggio naturale doveva trovare la risposta a una domanda specifica. Dopo aver analizzato il suo processo di riflessione, l’AI ha capito che aveva cercato il titolo sbagliato dello spettacolo e ha imparato a cercare il personaggio principale per trovare il ruolo per cui era più conosciuto. Dopo aver applicato questa nuova conoscenza, l’agente ha completato il compito in meno passaggi, ottenendo la risposta corretta. Inoltre, il team ha scoperto che utilizzando Reflexion con un agente basato su ChatGPT-4, l’AI ha ottenuto un’accuratezza dell’88 percento nei compiti di codifica, rispetto al 67 percento quando ChatGPT-4 agiva da solo. Questa scoperta dimostra come gli esseri umani possano sviluppare tecniche innovative per migliorare le prestazioni degli agenti di AI utilizzando processi decisionali una volta ritenuti unici all’intelligenza umana. L’articolo è stato pubblicato sul server preprint arXiv.

Links: