Il ragionamento delle IA è un’illusione: falliscono su indovinelli e rompicapo. Lo studio di Apple

pubblicato in: AltroBlog 0
Il ragionamento delle IA è un’illusione: falliscono su indovinelli e rompicapo. Lo studio di Apple

Messi alla prova con degli indovinelli, anche gli LLM migliori hanno ottenuto risultati
imbarazzanti.

da zeusnews.it – 13-06-2025

Che le cosiddette “intelligenze artificiali” non siano per davvero intelligenti è qualcosa di cui
tutti dovremmo ormai essere coscienti. Ora uno studio condotto da sei ricercatori di Apple conferma
quanto già si sospettava: i grandi modelli linguistici (LLM) non sono effettivamente in grado di
ragionare, in particolare quelli progettati per il “ragionamento simulato” (SR).

Pubblicato poco prima della WWDC 2025, lo studio intitolato The Illusion of Thinking (L’illusione
del pensiero) ha analizzato le prestazioni di questi modelli facendo loro affrontare dei rompicapo,
come la Torre di Hanoi e il problema dell’attraversamento del fiume. Sono stati messi in evidenza
dei limiti che mettono in discussione l’idea che tali sistemi possano ragionare come gli esseri
umani – ora, ma anche in futuro. I ricercatori hanno testato oltre 20 modelli, tra cui OpenAI’s
o3-mini, DeepSeek R1 e Claude 3.7 Sonnet; hanno operato in maniera tale da evitare la contaminazione
dei dati, un problema comune nei benchmark matematici tradizionali.

I risultati mostrano che i modelli SR, pur comportandosi bene quando devono gestire compiti
semplici, falliscono completamente quando la complessità aumenta oltre una certa soglia. Per
esempio, nella Torre di Hanoi con 10 o più dischi, tutti i modelli testati hanno registrato un tasso
di successo pari a zero, anche con risorse computazionali adeguate. In certi casi i risultati sono
particolarmente interssanti: il modello Claude 3.7 Sonnet per esempio è riuscito a eseguire fino a
100 mosse corrette nella Torre di Hanoi, ma ha fallito la risoluzione di un indovinello di
attraversamento del fiume che richiedeva solo cinque mosse; da ciò i ricercatori hanno dedotto che i
fallimenti siano specifici del compito piuttosto che legati alla capacità computazionale.

Un altro aspetto emerso dallo studio è il cosiddetto fenomeno del “limite di scala controintuitivo”.
A mano a mano che la complessità dei problemi aumenta, i modelli SR inizialmente generano più “token
di pensiero” per elaborare le soluzioni; oltre una certa soglia invece riducono lo sforzo di
ragionamento, anche se dispongono di risorse sufficienti. Questo comportamento è stato attribuito a
una dipendenza da pattern probabilistici, anziché da un ragionamento logico formale, e a volte
andando proprio contro la logica. Per esempio nello studio si legge che i modelli «interpretano le
frasi che parlano di “sconti” come se parlassero di “moltiplicazioni”, indipendentemente dal
contesto. Ciò ci spinge a chiederci se questi modelli davvero abbiano compreso i concetti matematici
con sufficiente esattezza».

La ricerca evidenzia anche la fragilità dei modelli di fronte a variazioni minime. Cambiare i nomi
propri in un problema può alterare i risultati fino al 10%: è un livello di variabilità che non ci
si aspetterebbe da uno studente con una reale comprensione matematica. Inoltre, l’introduzione di
informazioni irrilevanti, come dettagli superflui nei problemi, ha causato cali drastici di
accuratezza, con perdite dal 17,5% al 65,7% rispetto al benchmark GSM8K.

Gli autori dello studio concludono che i modelli attuali di intelligenza artificiale, pur mostrando
capacità in compiti specifici, non eseguono un vero ragionamento logico, ma si affidano a un
riconoscimento di schemi probabilistici. Questa dipendenza limita la loro abilità di affrontare
problemi nuovi o complessi, come evidenziato dai loro fallimenti nei test. Gary Marcus, esperto di
AI, ha commentato che i risultati non fanno altro che confermare come i modelli non eseguano un
ragionamento formale; si basano invece su un “sofisticato riconoscimento degli schemi” che risulta
fragile di fronte a variazioni o contesti non familiari. Persino fornire agli LLM algoritmi
espliciti per risolvere la Torre di Hanoi non ha migliorato le prestazioni, suggerendo che il
processo seguito dai modelli non sia logico né intelligente.

Un altro punto di interesse sono le prestazioni superiori durante l’esecuzione di compiti analitici
mostrate dai modelli SR rispetto ai modelli generici, come per esempio GPT-4o. I ricercatori
sostengono che tali progressi derivano da un maggiore uso di risorse computazionali per elaborare i
problemi in passi più piccoli, non da una vera comprensione. Tutto ciò porta in conclusione a porsi
diversi interrogativi sul futuro dello sviluppo della IA, con esperti come Andrew Rogoyski
dell’Università del Surrey che suggeriscono che l’attuale approccio basato possa aver raggiunto un
vicolo cieco se l’intento è ottenere un ragionamento generalizzabile.

machinelearning.apple.com/research/illusion-of-thinking

it.wikipedia.org/wiki/Torre_di_Hanoi

it.wikipedia.org/wiki/Problema_del_lupo,_della_capra_e_dei_cavoli

Condividi:

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *