Focus ricerca

Senza ironia: studio congiunto Ca' Foscari-Cardiff rivela i limiti linguistici dell’intelligenza artificiale

condividi
Alessandro Zangari e Matteo Marcuzzo

L'Intelligenza Artificiale non ha il senso dell’ironia. La prova recente arriva da una ricerca presentata a novembre in un convegno internazionale in Cina (Conference on Empirical Methods in Natural Language Processing a Suzhou) da un team congiunto dell’Università Ca' Foscari Venezia e dell’Università di Cardiff, dal titolo Pun Unintended: LLMs and the Illusion of Humor Understanding.

In sostanza, secondo gli studiosi, i LLM (Large Language Models) comprendono ancora in modo superficiale rispetto agli esseri umani i giochi di parole (in inglese ‘puns’) che sfruttano polisemia e somiglianza fonetica. Il lavoro mostra che piccole variazioni nei puns bastano a ingannare i modelli (fra i quali GPT-4o, Llama3.3 e DeepSeek R1), evidenziando limiti nei benchmark attuali.

"Gli LLM sono addestrati su enormi quantità di dati, quindi ci aspettavamo che fossero bravi a riconoscere e spiegare i giochi di parole, che di solito sono intuitivi per i parlanti con una buona comprensione della lingua (in questo caso, l’inglese) - spiega Alessandro Zangari, dottorando di Informatica all’università Ca’ Foscari e coautore della ricerca insieme a Matteo MarcuzzoAndrea Albarelli (Ca’ Foscari), Mohammad Taher PilehvarJose Camacho-Collados (Cardiff). - Abbiamo verificato questa ipotesi chiedendo ai modelli di distinguere tra giochi di parole e frasi normali. I risultati variavano a seconda del modello, ma in generale davano risultati abbastanza buoni.
La sorpresa è arrivata quando abbiamo presentato gli stessi giochi di parole sostituendo una singola parola, in modo da “rovinarli” completamente. In questo caso, gli LLM venivano costantemente ingannati e continuavano a sostenere che fossero giochi di parole, con accuratezze che scendevano fino al 20%. Sulla base dei nostri risultati, abbiamo concluso che i modelli si concentrano troppo sulla struttura linguistica e sulle somiglianze con giochi di parole già conosciuti, invece di comprendere davvero il meccanismo alla base di un pun."

Gli LLM stanno ottenendo risultati eccellenti nei test di valutazione standard di comprensione del testo, portando questi benchmark ad una vera e propria saturazione. L’attenzione della ricerca si sta dunque spostando verso la valutazione delle loro capacità di ragionamento astratto e di inferenza più complesse. In questo quadro, i test di riferimento basati su testi letterari — ricchi di profondità narrativa e dimensione morale — diventano strumenti ideali per misurare forme di comprensione più profonde e meno superficiali. 

Lo stesso gruppo di ricerca ha pubblicato Morables: A Benchmark for Assessing Abstract Moral Reasoning in LLMs with Fables, uno studio che misura la capacità dei LLM di capire e valutare la morale di favole e racconti della letteratura storica. Il compito principale consisteva in domande a scelta multipla che miravano a ricavare un giudizio morale — cioè stabilire cosa fosse giusto, sbagliato, etico o appropriato — a partire da informazioni presenti in un testo o in una situazione, con varianti appositamente progettate per spingere i modelli oltre una semplice risposta estrattiva e superficiale. 

"Lo studio parallelo sulla morale nelle favole ha rivelato schemi simili al caso dei ‘puns’- spiega Matteo Marcuzzo, dottorando di Informatica all’università Ca’ Foscari e coautore della ricerca. - I modelli erano molto bravi a scegliere la morale corretta di una storia, finché non si rimuoveva la risposta giusta dall’elenco. Invece di ammettere che la risposta non era presente, sceglievano costantemente una morale sbagliata pur di dare una risposta. Tuttavia, quando chiedevamo: ‘Questa morale si adatta davvero alla storia?’, anche i modelli migliori ammettevano che non fosse appropriata nel 20-40% dei casi. Ciò ci ha portato a concludere che i modelli danno priorità al fornire un responso rispetto alla reale comprensione della storia."

“Mettere in luce tali limiti è dunque fondamentale per comprendere la reale affidabilità di questi strumenti - spiega Alessandro. - Nel campo dell'intelligenza emotiva, l'eccessiva ricerca di allineamento e una sorta di 'gentile accondiscendenza' finiscono spesso per neutralizzare l'ironia e la sensibilità culturale, come anche evidenziato dai nostri studi. Superare questo appiattimento, bilanciando la necessaria cautela con una reale profondità di comprensione, rappresenta oggi una delle sfide per la ricerca in questo ambito.”

Federica Scotellaro