La fantascienza è costellata di intelligenze artificiali che si ribellano e si rivoltano contro i loro creatori umani. HAL-9000. Matrix. Skynet. GLaDOS. Cyloni. L’umanità, a quanto pare, ha una profonda paura della ribellione della macchina.
Con l’avvento di modelli linguistici di grandi dimensioni (LLM) sempre più sofisticati, come Chat GPT, la questione dei pericoli che l’intelligenza artificiale può rappresentare è diventata ancora più pertinente . E ora abbiamo delle buone notizie. Secondo un nuovo studio condotto dagli informatici Iryna Gurevych della Technical University of Darmstadt in Germania e Harish Tayyar Madabushi della University of Bath nel Regno Unito, questi modelli non sono in grado di diventare canaglia.Sono infatti troppo limitati dalla loro programmazione, incapaci di acquisire nuove competenze senza istruzioni e rimangono quindi sotto il controllo umano. Ciò significa che, nonostante sia ancora possibile utilizzare i modelli per scopi nefasti, gli LLM di per sé sono sicuri da sviluppare senza preoccupazioni. “Il timore è che, diventando sempre più grandi, i modelli saranno in grado di risolvere nuovi problemi che al momento non siamo in grado di prevedere, il che comporta il rischio che questi modelli più grandi possano acquisire capacità pericolose, tra cui ragionamento e pianificazione”, afferma Tayyar Madabushi . “Il nostro studio dimostra che il timore che un modello scompaia e faccia qualcosa di completamente inaspettato, innovativo e potenzialmente pericoloso non è fondato.”
Negli ultimi due anni, la sofisticatezza degli LLM è cresciuta in modo sorprendente. Ora sono in grado di condurre una conversazione relativamente coerente tramite testo, in un modo che appare naturale e umano. Non sono perfetti, poiché non sono, in realtà, una forma di intelligenza, mancano delle capacità critiche richieste per analizzare le informazioni buone da quelle cattive in molti casi . Ma possono comunque trasmettere informazioni cattive in modo convincente. Di recente, alcuni ricercatori hanno indagato la possibilità che le cosiddette abilità emergenti siano sviluppate indipendentemente dagli LLM, anziché essere deliberatamente codificate nella loro programmazione. Un esempio particolare è un LLM che è stato in grado di rispondere a domande su situazioni sociali senza essere stato esplicitamente formato su quelle situazioni. L’osservazione è stata che man mano che gli LLM aumentano di scala, diventano più potenti e possono svolgere più compiti. Non era chiaro se questa scalabilità implicasse anche un rischio di comportamento che potremmo non essere preparati ad affrontare. Quindi i ricercatori hanno condotto un’indagine per vedere se tali casi fossero realmente emergenti o se il programma agisse semplicemente in modi complessi entro i limiti del suo codice. Hanno sperimentato quattro diversi modelli LLM, assegnando loro compiti che erano stati precedentemente identificati come emergenti . E non hanno trovato alcuna prova dello sviluppo del pensiero differenziato, o che uno qualsiasi dei modelli fosse in grado di agire al di fuori della loro programmazione. Per tutti e quattro i modelli, la capacità di seguire le istruzioni, la memorizzazione e la competenza linguistica sono state in grado di giustificare tutte le capacità esibite dagli LLM. Non c’era modo di andare fuori pista. Non abbiamo nulla da temere dagli LLM da soli. Le persone, d’altro canto, sono meno affidabili . Il nostro uso esplosivo dell’intelligenza artificiale, che richiede più energia e mette in discussione tutto, dal copyright alla fiducia, a come evitare il suo stesso inquinamento digitale , sta diventando un vero problema. “I nostri risultati non significano che l’intelligenza artificiale non rappresenti affatto una minaccia”, afferma Gurevych . “Piuttosto, dimostriamo che la presunta comparsa di abilità di pensiero complesse associate a minacce specifiche non è supportata da prove e che, dopotutto, possiamo controllare molto bene il processo di apprendimento degli LLM. La ricerca futura dovrebbe quindi concentrarsi su altri rischi posti dai modelli, come il loro potenziale di essere utilizzati per generare fake news”. La ricerca è stata pubblicata come parte degli atti del 62° incontro annuale dell’Associazione per la linguistica computazionale .