James Somers ha recentemente pubblicato un interessante saggio su The New Yorker intitolato “The Case That A.I. Is Thinking.” Inizia presentando una definizione specifica del pensare, attribuita in parte al libro di Eric B. Baum del 2003 What is Thought?, che descrive questo atto come l’utilizzo di un “modello compresso del mondo” per fare previsioni su ciò che ci si aspetta che accada. (L’esercizio di neuroscienza amatoriale di Jeff Hawkins del 2004, On Intelligence, sostiene una tesi simile).
Somers poi parla con esperti che studiano come operano i moderni modelli linguistici di grandi dimensioni e osserva che la meccanica della predizione del token successivo degli LLM somiglia a questa definizione esistente del pensare. Somers è attento a limitare le sue conclusioni, ma trova comunque motivo di entusiasmo:
“Non credo che ChatGPT abbia una vita interiore, e tuttavia sembra sapere di cosa parla. Comprendere — avere una presa su ciò che sta succedendo — è un tipo di pensiero sottovalutato.”
Confronta questa discussione ponderata e illuminante con un’altra recente descrizione dell’IA, offerta dal biologo Bret Weinstein in un episodio del podcast di Joe Rogan.
Weinstein inizia notando (correttamente) che il modo in cui un modello linguistico apprende il significato delle parole attraverso l’esposizione a testi è analogo a come un bambino apprende parti del linguaggio ascoltando conversazioni.
Ma poi sviluppa questa analogia fino a presentare con sicurezza una descrizione drammatica di come operano questi modelli:
“Fa piccoli esperimenti e scopre cosa dovrebbe dire se vuole che certe cose accadano, ecc. Quello è un LLM. A un certo punto, sappiamo che quel bambino diventa una creatura cosciente. Non sappiamo quando. Non sappiamo nemmeno precisamente cosa intendiamo. Ma questa è la nostra relazione con l’IA. L’IA è cosciente? Non lo so. Se non lo è ora, lo sarà, e non sapremo quando ciò accadrà, giusto? Non abbiamo un buon test.”
Questa descrizione confonde e mescola molte realtà su come i modelli linguistici funzionano realmente. La cosa più ovvia è che, una volta addestrati, i modelli linguistici sono statici; descrivono una sequenza fissa di transformer e reti neurali feed-forward. Ogni parola di ogni risposta che ChatGPT produce è generata dalla stessa rete immutabile.
Contrariamente a quanto suggerisce Weinstein, un modello linguistico distribuito non può condurre “piccoli esperimenti”, né “voler” che certe cose accadano, né avere alcuna nozione che un risultato sia desiderabile o meno. Non trama né pianifica né impara. Non ha computazione spontanea o continua, e nessun modello aggiornabile del suo mondo — tutto ciò implica che certamente non può essere considerato cosciente.
Come sostiene James Somers, queste reti fisse possono comunque codificare una quantità impressionante di comprensione e conoscenza che viene applicata quando generano il loro output, ma il calcolo che accede a queste informazioni non somiglia affatto alle voci interne autoriflessive, motivate e sostenute che gli umani spesso associano alla cognizione.
(In effetti, Somers sottolinea specificamente che la nostra comune concettualizzazione del pensare come “qualcosa di cosciente, come un monologo interiore joyciano o il flusso di ricordi sensoriali in un sogno a occhi aperti proustiano” ha confuso i nostri tentativi di comprendere la cognizione artificiale, che non funziona in nulla come questo.)
~~~
Menziono questi due esempi perché, quando parliamo di IA, essi rappresentano due stili differenti.
Nell’articolo ponderato di Somers sperimentiamo un approccio fondamentalmente moderno. Egli guarda dentro la proverbiale scatola nera per comprendere i meccanismi effettivi all’interno degli LLM che creano il comportamento che ha osservato. Usa poi questa comprensione per trarre conclusioni interessanti sulla tecnologia.
L’approccio di Weinstein, al contrario, è fondamentalmente pre-moderno nel senso che non tenta mai di aprire la scatola e chiedersi come il modello funzioni realmente. Osserva invece il suo comportamento (è fluente con il linguaggio), elabora una storia per spiegare questo comportamento (forse i modelli linguistici operano come la mente di un bambino), e poi estrae conclusioni dalla sua storia (i bambini alla fine diventano esseri autonomi e coscienti, quindi anche i modelli linguistici lo diventeranno).
Questo non è diverso da come l’uomo pre-moderno raccontava storie per descrivere i fenomeni naturali, e poi reagiva alle implicazioni dei loro racconti; ad es., il fulmine viene dagli Dei, quindi dobbiamo fare sacrifici regolari per impedire che gli Dei ci colpiscano con un fulmine dal cielo.
L’IA basata su modelli linguistici è una tecnologia impressionante che è accompagnata da implicazioni e rischi che richiederanno risposte calme e ragionate. Tutto ciò è troppo importante per il pensiero pre-moderno. Quando si tratta di IA, è tempo di iniziare le nostre conversazioni più serie pensando dentro la scatola.
James Somers ha recentemente pubblicato un interessante saggio su The New Yorker intitolato "The Case That A.I. Is Thinking." Inizia presentando una definizione specifica del pensiero, attribuita in ... Leggi di più