In poche discipline si fraintendono successi e illusioni quanto nell’intelligenza artificiale. Il suo stesso scopo, quello di creare qualcosa che sia capace di mostrare intelligenza, sembra ogni volta prossimo e lontano, raggiunto e impossibile. Da Marvin Minsky, uno dei suoi fondatori, che nel 1967 scrisse che nel giro di una generazione il problema dell’intelligenza artificiale sarebbe stato «completamente risolto», agli errori catastrofici del 2016 del sistema di diagnosi di malattie rare dell’IBM, che era stato annunciato dall’azienda come così rivoluzionario da sostituire gli stessi medici, questo campo di ricerca sembra essere sempre sul baratro del successo.
Quando qualcosa viene portato a compimento a esso si accompagna il pericolo, suggerisce il Libro dei mutamenti. Uno di questi compimenti è sotto i nostri occhi in questi mesi: il successo di ChatGPT. Ma che cosa viene portato a compimento con questo tipo di sistemi? Qual è il pericolo?
ChatGPT è un robot virtuale per conversare in linguaggio naturale attraverso domande e risposte (chatbot), che si serve di un modello linguistico ampio (Large Language Model, LLM), cioè di una rete neurale addestrata su enormi quantità di testi.
Una delle differenze più eclatanti tra reti neurali naturali e artificiali sta nella grandezza delle loro “esperienze”: per imparare a eseguire un certo compito una rete neurale artificiale ha bisogno di molti più esempi rispetto a quanti ne servano a un essere vivente dotato di un sistema nervoso. Ad esempio, la base di dati su cui il modello linguistico GPT-3 di ChatGPT è stato addestrato (detta training set) era costituita da 570 gigabytes di testi di vario tipo, corrispondenti a circa 300 miliardi di parole. Solo in questo modo il sistema riesce ad avere, nelle sue risposte, quella “naturalezza” che un umano raggiunge attraverso un numero infinitamente minore di esempi nel corso dell’apprendimento del linguaggio.
Non si può insistere abbastanza sulla natura statistica e probabilistica di questo tipo di intelligenza artificiale. L’apprendimento automatico (machine learning) consiste nel costruire programmi che possano trasformare osservazioni del passato in previsioni. L’addestramento della rete neurale consiste nell’individuare degli schemi statistici che sussistono tra le parole che sono nei testi e che si trovano nel training set, di estrarre cioè matematicamente l’informazione sulla ricorrenza che sussiste tra tutte le parole presenti. Questa statistica viene fatta in modo sia automatico che supervisionato da umani e permette di assegnare dei numeri alle parole in modo tale che a numeri (vettori) simili siano associate parole simili. In sistemi come ChatGPT le parole sono il suo input e il suo output, ma tutto ciò che viene elaborato da ChatGPT è strettamente matematico.
In questo modo si possono fare operazioni su questi numeri in quelli che, infelicemente, sono stati chiamati “calcoli semantici”. Un classico esempio è quello – poco attento alle differenze di genere – per cui se sottraiamo al vettore “re” il vettore “maschio” e poi aggiungiamo il vettore “femmina” otteniamo il vettore “regina”. Se per semantica intendiamo ciò che ha a che fare con il significato, si capirà perché questi calcoli non siano semantici, bensì essi riguardino la statistica sulla ricorrenza tra le parole nella base di dati, cioè ad esempio, nei 300 miliardi di parole su cui ChatGPT si è addestrato. In uno sterminato archivio in cui ricorrono le parole “re” e “regina”, esse ricorreranno probabilmente in contesti simili tra loro, cioè con parole che a loro volta avranno ricorrenze simili (ad esempio “trono”, “corona”, “maestà”, etc).
Se qualcosa è stato portato a compimento attraverso ChatGPT e simili è perciò una certa idea del linguaggio. Questa idea risale almeno agli anni Settanta del secolo scorso e all’intuizione di ricercatori come Frederick Jelinek, noto per la frase: «Ogni volta che licenzio un linguista, le prestazioni del nostro sistema aumentano». Per Jelinek non è seguendo la strada della grammatica che si costruiscono sistemi artificiali capaci di trattare il linguaggio umano, ma attraverso lo studio delle frequenze matematiche che sussistono tra le parole, questo ha portato, prima di ChatGPT, a successi nella correzione ortografica o nel completamento automatico nei sistemi di scrittura presenti dei nostri computer e cellulari.
Questa idea del linguaggio è sembrata ad alcuni vicina a quella, attribuita a Wittgenstein, per cui significato di una parola è dato dal suo uso (Ricerche filosofiche, § 43). Per insegnare il significato di una parola a un bambino gli facciamo vedere come la usiamo nel linguaggio. Confondere però la registrazione della frequenza dell’uso delle parole (come nell’IA) con l’uso effettivo che facciamo delle stesse per spiegare cosa sia la comprensione del linguaggio (nel caso del bambino) è un pregiudizio che sta prendendo sempre più piede nella nostra società.
L’idea che il significato sia l’uso non risale di certo solo a Wittgenstein, in embrione essa è già presente in Spinoza nel suo Tractatus theologico-politicus e lo è in un modo particolarmente utile per spiegare questa confusione. Verba ex solo usu certam habent significationem, «le parole hanno un determinato significato solo in base all’uso», scrive Spinoza (Tractatus, 12, 160) e scrive questo riguardo ai testi religiosi. Per Spinoza le parole del testo religioso muovono gli uomini alla pietà in base a come sono usate nella realtà di una certa epoca e di un certo contesto sociale. Se queste parole sono coerenti con l’uso che se ne faceva in un certo contesto allora quelle parole saranno sacre, e sarà sacro anche il libro scritto con quella disposizione di parole. Ma se in seguito l’uso viene meno, continua Spinoza, allora sia le parole sia il libro non saranno di alcuna utilità né santità. Non sono le parole in sé ad avere significato, ma esse prendono il significato che hanno dal mondo che gli esseri umani abitano, potremmo dire noi, avvicinandoci al pensiero di Wittgenstein. La statistica delle parole interna a un libro (o a migliaia di libri) non può darci il significato, perché il significato dipende dalla nostra (forma di) vita e a essa questo tipo di intelligenza artificiale non ha accesso: essa vede solo ricorrenze all’interno di dati. Questo non nega la significatività del fatto che in un certo testo ricorrono certe parole con una certa frequenza, nega che la ricorrenza tra dati sia sufficiente per avere significato.
Sarebbe la stessa cosa avere una lettera di una persona cara perduta che è basata sulla statistica di tutto ciò che questa persona ha detto o invece avere una lettera scritta di suo pugno? Vi è qualcosa qui che va al di là non solo della questione della ricorrenza, ma che esalta un certo aspetto del mondo della vita, il fatto cioè che i parlanti intendono qualcosa quando parlano, che ciò che dicono è in qualche modo legato a ciò che vogliono dire e/o fare: il loro modo di parlare non è semplicemente naturale o plausibile, ma è cioè anche un fare.
Si prenda il caso delle famose allucinazioni di sistemi come ChatGPT. L’allucinazione in questo contesto si riferisce a errori nel testo generato che sono semanticamente o sintatticamente plausibili ma che in realtà sono errati o privi di senso. Uno dei motivi principali, secondo i suoi stessi progettisti, ha a che fare con la difficoltà del sistema di produrre affermazioni fattuali. Questa incapacità di ChatGPT dovrebbe essere più chiara alla luce di quanto abbiamo detto riguardo al suo funzionamento: il sistema è intrappolato nel linguaggio e non vede il mondo. Tuttora non è stata proposta una soluzione definitiva a questo problema, né, tantomeno, è stata proposta una misura dell’errore (cioè dell’inaffidabilità) di questi sistemi. D’altra parte, se si è seguito quanto scritto sinora, si potrebbe dire che, in senso stretto, questi sistemi non possono sbagliare, non ci può essere in essi né accordo né conflitto rispetto a come vanno le cose effettivamente nel mondo, perché per essi il mondo non c’è.
Questo ci porta a una breve riflessione sul baratro, cioè sui pericoli inerenti a questo tipo di intelligenza artificiale. Inutile fare previsioni, immaginare cioè come da qui a cinque o dieci anni non solo si sviluppi la tecnologia, ma anche come questa tecnologia verrà usata. In questo senso crediamo che un certo tipo di avvertimenti riguardo al pericolo di estinzione della nostra specie connesso a questi sistemi appartenga più all’ambito della pubblicistica o della propaganda: sottolinea delle capacità dell’intelligenza artificiale che sono largamente equivocate, ma stimola, d’altra parte, l’attenzione su di essa, rendendola sempre prossima e lontana, raggiunta e impossibile, e quindi potente. Il pericolo di questo compimento non è la singolarità – il momento cioè in cui la tecnologia ci supera nelle nostre capacità, diventa autonoma e decide su di noi – ma la confusione che si sta introducendo nella società umana. Se ignoriamo il modo in cui questi sistemi funzionano e ci basiamo su di essi per estrarre conoscenza fattuale, quando essi in realtà allucinano, rischiamo di utilizzare nei nostri scambi con gli altri delle informazioni errate, informazioni che, si badi bene, non sono state prodotte con un intento malevolo, come nel caso delle fake news, ma che sono il risultato di ciò che, secondo la macchina, si dice sulla base di ciò che si è detto. Difficile dire quali saranno gli effetti di questa nuova forma di caos.
di Emanuele Bottazzi Grifoni