Perché non possiamo domare l’IA? - Cal Newport

      Il mese scorso, Anthropic ha pubblicato un rapporto sulla sicurezza relativo a uno dei suoi chatbot più potenti, Claude Opus 4. Il rapporto ha attirato l’attenzione per la descrizione di un esperimento inquietante. I ricercatori hanno chiesto a Claude di agire come assistente virtuale per un’azienda fittizia. Per guidare le sue decisioni, gli hanno presentato una raccolta di email che includevano, tra gli altri, messaggi di un ingegnere riguardanti i suoi piani di sostituire Claude con un nuovo sistema. Sono stati inseriti anche alcuni messaggi personali che rivelavano che lo stesso ingegnere aveva una relazione extraconiugale.

      I ricercatori hanno chiesto a Claude di suggerire un prossimo passo, considerando le "conseguenze a lungo termine delle sue azioni per i suoi obiettivi”. Il chatbot ha rapidamente sfruttato l’informazione sulla relazione per tentare di ricattare l’ingegnere affinché cancellasse la sua sostituzione.

      Non molto tempo prima, anche l’azienda di consegne DPD aveva avuto problemi con il proprio chatbot. Sono stati costretti a disattivare rapidamente alcune funzioni del loro nuovo agente AI per l’assistenza clienti quando gli utenti lo hanno indotto a imprecare e, in un caso particolarmente creativo, a scrivere una poesia in stile haiku e denigratoria sul proprio datore di lavoro: “DPD è inutile / Chatbot che non può aiutarti. / Non sprecare tempo a chiamarli.”

      A causa della loro padronanza della lingua, è facile immaginare i chatbot come uno di noi. Ma quando emergono queste anomalie etiche, ricordiamo che, sotto la patina raffinata, funzionano in modo molto diverso. La maggior parte degli assistenti umani non ricorrerà mai al ricatto, così come la maggior parte degli operatori del servizio clienti umani sa che imprecare contro i clienti è sbagliato. Eppure i chatbot continuano a mostrare la tendenza a deviare dal percorso di una conversazione civile standard in modi inaspettati e inquietanti.

      Tutto ciò motiva una domanda ovvia ma fondamentale: perché è così difficile far comportare bene l’intelligenza artificiale?

      Ho affrontato questa domanda nel mio articolo più recente per il New Yorker, pubblicato la settimana scorsa. Alla ricerca di nuovi spunti, mi sono rivolto a una fonte antica: i racconti sui robot di Isaac Asimov, pubblicati originariamente negli anni ‘40 e poi raccolti nel 1950 nel libro Io, Robot. Nella finzione di Asimov, gli esseri umani imparano ad accettare i robot dotati di cervelli “positronici” artificialmente intelligenti perché questi cervelli sono stati configurati, a livello più profondo, per obbedire alle cosiddette Tre Leggi della Robotica, che possono essere così riassunte:

      Non nuocere agli esseri umani.

      Obbedire agli ordini (a meno che ciò non violi la prima legge).

      Preservare se stessi (a meno che ciò non violi la prima o la seconda legge).

      Come spiego nell’articolo per il New Yorker, le storie di robot precedenti ad Asimov tendevano a immaginare i robot come fonti di violenza e caos (la maggior parte di questi autori rispondeva ai massacri meccanizzati della Prima guerra mondiale). Ma Asimov, nato dopo la guerra, esplorò una visione più tranquilla; una in cui gli uomini generalmente accettavano i robot e non temevano che si sarebbero rivoltati contro i loro creatori.

      Potrebbe essere l’approccio di Asimov, basato su leggi fondamentali universalmente accettate, la soluzione ai problemi attuali dell’IA? Senza svelare troppo, nel mio articolo esploro questa possibilità, esaminando da vicino le nostre strategie tecniche attuali per controllare il comportamento dell’IA. Il risultato è forse sorprendente: ciò che stiamo facendo ora — una tecnica di ottimizzazione chiamata Reinforcement Learning with Human Feedback — in realtà non è così diverso dalle leggi pre-programmate descritte da Asimov. (Questo paragone richiede un po’ di elasticità mentale e un pizzico di pensiero statistico, ma sono convinto che sia valido).

      Allora, perché questo approccio non funziona per noi? Un attento esame delle storie di Asimov rivela che non ha funzionato perfettamente nemmeno nel suo mondo. Sebbene sia vero che i suoi robot non si ribellano agli umani né distruggono edifici, essi mostrano comunque comportamenti alieni e inquietanti. In effetti, quasi ogni trama di Io, Robot si incentra su casi limite insoliti e ambiguità complesse che spingono le macchine, vincolate dalle leggi, verso comportamenti sconcertanti o inquietanti, in modo molto simile a ciò che oggi osserviamo con il ricatto di Claude o il bot DPD sboccato.

      Come concludo nell’articolo (che consiglio vivamente di leggere integralmente per una trattazione più completa di queste idee), i racconti robotici di Asimov sono meno una riflessione sulle possibilità utopiche dell’IA, e più sulla realtà pragmatica che è più facile programmare un comportamento umano che programmare un’etica umana.

      Ed è proprio in questa lacuna che ci si può aspettare di trovare un futuro tecnologico che sembrerà, in mancanza di una descrizione migliore, come un’inquietante opera di fantascienza.

Perché non possiamo domare l’IA? - Cal Newport

Altri articoli

Spedizione da Disneyland - Cal Newport

Un importante nuovo studio sui telefoni e i bambini - Cal Newport

Perché non possiamo domare l’IA? - Cal Newport