immagine di copertina

Introduzione

Un paio di mesi fa ho avuto l'opportunità di tenere una lezione - a distanza - sui temi dell'intelligenza artificiale e dei LLM alle studentesse e agli studenti del corso di laurea in Medicina e Chirurgia ad indirizzo tecnologico dell'università di Verona.

Lidia Del Piccolo, titolare del corso che mi ha ospitato, mi ha spiegato che gli studenti sono del secondo anno, e che il corso di laurea dura 6 anni.

Caspita, mi sono chiesto. Cosa posso raccontare, in merito ad un tema così dinamico, con una evoluzione così radicale, che possa aver senso anche fra quattro o cinque anni? Tentare di fare delle previsioni su come saranno potentissimi i modelli fra cinque anni sarebbe stata fuffa. Anzi, ho raccontato loro di una previsione fatta da Geoffrey Hinton, uno dei padri dell'intelligenza artificiale, nel 2016, secondo cui nell'arco di 5, 10 anni i radiologi sarebbero stati completamente sostituiti dall'intelligenza artificiale. Questo è il video youtube della sua previsione.

Caso vuole che, in quel periodo, fossi impegnato nella valutazione euristica di un software per la gestione degli "Electronic health record" (le cartelle cliniche digitali), finalizzato a valutare i rischi per i pazienti legati all'usabilità.

E dunque ho deciso di impostare il webinar dalla prospettiva dell'UX designer. Non mi sono chiesto se fra cinque anni i medici useranno - informalmente - gli LLM (è facile prevedere che sì, li useranno). Mi sono chiesto: in base a quali criteri ha senso integrarli formalmente nel processo diagnostico e di cura?

E, facendomi aiutare proprio dagli LLM, ho identificato delle linee guida per l'adozione dell'intelligenza artificiale in un contesto clinico.

Nei prossimi paragrafi definirò una serie di principi, di linee guida per l'adozione dei modelli generativi, ne identificherò i rischi e i limiti, e alcuni strumenti per mitigare gli aspetti negativi.

Ho mantenuto gli esempi che avevo fatto a lezione, in ambito medico. Ma i principi valgono per qualsiasi ambito in cui l'adozione degli LLM può portare benefici e rischi. Pensa all'ambito legale, finanziario-bancario-assicurativo, delle risorse umane, nella ricerca e sviluppo, e negli ambiti industriali.

Lo stato dell'arte

L'adozione degli LLM sta accelerando: i modelli sono più fluenti e capaci rispetto anche solo a qualche mese fa, ma mantengono debolezze rilevanti. In ambito sanitario la ricerca si concentra soprattutto sulla sicurezza, sull'affidabilità e sulla compliance etico‑legale: si osservano miglioramenti nella formulazione del testo, ma permangono rischi di allucinazioni, incoerenze e comportamenti imprevisti che possono avere un significativo impatto negativo sulla sicurezza. Studi recenti [Griot et. al. (2025); Handler et. al. (2025)] sottolineano come la maggiore fluenza non garantisca necessariamente affidabilità in domini dove accuratezza, aderenza a precise linee guida e interpretabilità sono cruciali.

Criteri per l'adozione

Per valutare se e come integrare formalmente un LLM in un processo clinico - o in ogni contesto dove i criteri di sicurezza sono alti - è utile definire una serie di criteri operativi. Questi parametri guidano sia la scelta tecnologica sia le strategie di governance e mitigazione.

  • Giustificabilità: l'uso deve essere difendibile legalmente, spiegabile agli utenti e conforme a codici deontologici.
  • Sicurezza: l'adozione non deve aumentare il rischio di danno evitabile al paziente - utente finale.
  • Trasparenza: il provider deve garantire informazioni chiare su dati, limiti e capacità del modello.
  • Accuratezza: le prestazioni devono essere coerenti con la conoscenza consolidata del dominio.
  • Spiegabilità e interpretabilità: il processo decisionale deve essere comprensibile all'operatore clinico.
  • Affidabilità - riproducibilità: il comportamento del modello dev'essere coerente e riproducibile
  • Usabilità: i modelli devono facilitare il lavoro clinico.
  • Tutela della privacy: dev'essere garantita la protezione dei dati sensibili secondo le normative vigenti.
  • Accountability clinica: la responsabilità delle decisioni rimane in capo al medico.

Definire questi parametri facilita anche l'identificazione delle strategie concrete per mitigare i limiti degli LLM.

Giustificabilità

L'utilizzo dell'intelligenza artificiale in contesti potenzialmente critici deve essere

  • difendibile (sia in termini legali che nei confronti degli utenti - il paziente, in ambito medico)
  • tracciabile (devo poter risalire al processo che ha portato alla decisione)
  • eticamente e deontologicamente ineccepibile

Affinché l'uso dell'AI sia giustificabile è necessario che sia

  • sicura
  • trasparente
  • accurata e affidabile
  • spiegabile e interpretabile

In ambito sanitario, inoltre, è fondamentale chiarire che la responsabilità clinica resta del medico (accountability): il modello supporta, non sostituisce, il giudizio clinico.

Sicurezza

L'organizzazione mondiale della sanità definisce la sicurezza del paziente come

l'assenza di danni evitabili al paziente e la riduzione del rischio ad un livello accettabile di danni non necessari associati all'assistenza sanitaria.

WHO: Patient safety

La sicurezza consiste nel ridurre sia la probabilità sia la gravità delle conseguenze di un evento dannoso. In medicina questo principio è riassunto nel detto primum non nocere.

Problemi di sicurezza

  • Allucinazioni: l'LLM può generare informazioni inventate.
  • Raccomandazioni errate: dosaggi, diagnosi o terapie suggerite in modo non corretto.
  • Vulnerabilità ai prompt: istruzioni malevoli o mal formulate possono indurre errori.
  • Bias: pregiudizi presenti nei dati di addestramento che si riflettono nelle risposte.

La letteratura recente evidenzia che, nonostante gli evidenti miglioramenti, anche i modelli avanzati più recenti continuano a manifestare tali debolezze: «fluency does not guarantee reliability» [Griot et. al. (2025)]. Un chatbot che raccomanda con sicurezza un dosaggio errato o classifica male una condizione rara rappresenta un rischio reale; in ultima istanza, la responsabilità rimane a carico del medico (Handler et. al. (2025)).

Nel mio dialetto dicono "i le conta che le par vere": le raccontano che sembrano vere. I modelli tendono a fornire risposte estremamente credibili anche quando un tema non è nella loro base di conoscenza - non è nei miliardi di documenti su cui sono stati addestrati. I modelli comunque improvvisano, si inventano dati, fatti, ricerce ed evidenze che non esistono, e lo fanno in maniera convincente. I modelli più recenti sono decisamente migliorati, ma l'articolo dimostra che anche GPT 5 è soggetto a questi errori.

Trasparenza

La trasparenza è una misura di quanto sappiamo del modello che stiamo utilizzando:

  • struttura e architettura del modello;
  • i dati di addestramento (o la loro rappresentatività);
  • il cut-off (l'ultimo aggiornamento dei dati)
  • le capacità e i limiti del modello

Problemi di trasparenza

Spesso non è noto su quali dataset un modello sia stato addestrato e l'utente finale non è in grado di valutarlo. Di fatto soltanto i provider dei modelli (OpenAI, Google Gemini ...) conoscono questi aspetti, che vengono pubblicati nelle model cards.

Per questo chi progetta e implementa sistemi basati su LLM deve documentare e comunicare questi rischi agli utenti e ai decisori.

Accuratezza

La correttezza, la precisione, la consistenza delle risposte del modello, rispetto alla conoscenza medica consolidata.

La mancata accuratezza può causare risposte imprecise o scorrette che possono indurre a diagnosi o decisioni mediche sbagliate.

Questo ha un impatto negativo sia sulla sicurezza del paziente che sulla fiducia del medico nei confronti del servizio.

Questo principio naturalmente vale anche in ambito legale, finanziario, e in tutti quelli elencati nei paragrafi precedenti.

Problemi di accuratezza

  • le già citate allucinazioni
  • la conoscenza di un LLM non è uniforme e non è facile da misurare: può fornire risposte eccellenti per alcune diagnosi e completamente sbagliate per altre. Dell'Acqua et. al. (2023) parlano di prestazione frastagliata
  • se usata attraverso i prompt dell'utente, è sensibile alla correttezza del prompt

Spiegabilità (explainability)

La spiegabilità è la capacità (o la possibilità) del sistema di rendere esplicito come è arrivato ad una risposta - ad una raccomandazione.

È importante perché permette all'utente di valutare il processo e la risposta

Problemi della spiegabilità

I LLM sono delle scatole nere (black box). La loro conoscenza è distribuita nelle reti neurali artificiali, e dunque né il modello né gli sviluppatori sanno come una risposta sia stata generata.

È una forma di conoscenza implicita, comune anche agli esseri umani. Ti ricordi il momento in cui hai imparato che Parigi è la capitale della Francia?

Interpretabilità

È il grado in cui l'utente (il medico) riesce a comprendere il comportamento del sistema, a crearsi un modello mentale, a valutare quanto può fidarsi, quando essere più prudente, in quali circostanze il modello è più probabile che sbagli.

È importante perché

  • incoraggia la comprensione, riducendo il rischio di delega del ragionamento
  • promuove l'apprendimento
  • aumenta la fiducia dell'utente nel sistema e nella sua capacità di utilizzarlo correttamente

Problemi di interpretabilità

Se un utente non conosce le potenzialità e i limiti dei modelli, il rischio è che si fidi eccessivamente delle sue risposte, perché incapace di valutarne la correttezza e affidabilità. E la fluenza degli LLM, che risultano molto convincenti, peggiora il quadro, aumentando i rischi.

Educare l'utente

Le allucinazioni dei modelli linguistici e la loro fluenza li rendono molto persuasivi anche quando le risposte sono completamente sbagliate.

È fondamentale educare gli utenti in merito a questi rischi.

Affidabilità

La capacità del sistema di garantire prestazioni prevedibili, riproducibili e consistenti nel tempo e nei diversi scenari di utilizzo.

Va evitato il rischio che il sistema fornisca risposte diverse a scenari simili.

Tipico rischio: prompt con contenuti simili ma formulati diversamente possono generare risposte molto diverse.

Usabilità

Il servizio deve rispettare le tre dimensioni dell'usabilità:

  • dev'essere utile ed efficace nel permettere all'utente di portare a termine i propri compiti
  • deve essere efficiente: i costi (in termini di tempo, di carico cognitivo, di necessità di verificare i risultati) non devono superare l'utilità del sistema
  • soddisfazione d'uso: l'utilizzo del sistema non dev'essere un peso per l'utente

Tutela della Privacy

È necessario proteggere i dati sensibili del paziente e rispettare la legge sulla privacy.

I limiti degli LLM

Gli LLM (attuali) tendono ad avere problemi di

  • trasparenza: non è chiaro su quali basi di dati siano stati addestrati
  • accuratezza: le allucinazioni, le capacità frastagliate
  • spiegabilità: è estremamente difficile spiegare come un LLM ha generato una risposta

Questi limiti riducono la sicurezza e la giustificabilità dell'adozione degli LLM in ambito clinico o in ambiti potenzialmente critici. Alcuni di questi problemi non possono essere evitati, e sono connaturati nella loro architettura [Mohsin et. al. (2025)]

Mitigare i rischi

Evidenziare i limiti e i rischi degli LLM non significa escluderne a priori l'utilizzo. Ma la loro adozione dovrebbe avvenire a valle di una attenta valutazione e dell'implementazione di alcune strategie finalizzate a mitigare i rischi.

Alcune strategie sono più semplici, altre richiedono competenze molto specifiche.

Giustificabilità

A monte della progettazione e dell'implementazione dell'integrazione degli LLM in un software professionale è necessaria un'analisi legale, una valutazione del rischio e del quadro normativo specifico.

Definizione delle responsabilità

Va reso esplicito all'utente (nel caso clinico, il medico) che la responsabilità della decisione resta a lei. Vanno dunque definite policy, procedure, vanno stabiliti dei protocolli deontologici chiari, e questo aspetto deve far parte della formazione degli utenti, che devono imparare a non fare eccessivo affidamento sull'output del modello.

Tutela della Privacy

In primo luogo anonimizzare i dati prima di inviare il prompt al modello, soprattutto se si tratta di un provider esterno (ad esempio se si usano le API di Google, OpenAI o altri provider).
Valutare le garanzie di privacy che i provider offrono.
Se possibile, utilizzare un modello open source, facendolo girare su una propria infrastruttura, evitando così che i dati escano verso entità esterne.

Naturalmente rispettando tutte le policy pre-esistenti.

Accuratezza, affidabilità, spiegabilità, interpretabilità

Questi aspetti sono più difficili da implementare. La valutazione dell'accuratezza richiede il coinvolgimenti di esperti del dominio (ad esempio del dominio clinico); la spiegabilità richiede l'utilizzo di tecniche molto specialistiche.

Possibili soluzioni

Alle studentesse e agli studenti ho accennato due possibili soluzioni tecnologiche:

  • sviluppare ed utilizzare dei sistemi esperti, ovvero un approccio all'intelligenza artificiale più deterministico, anche se più rigido e meno difficilmente adattabile. In ambito medico i Clinical Decision Support System sono un tipo di sistema esperto. Sono molto evoluti, ed essendo deterministici garantiscono prestazioni corrette e replicabili;
  • utilizzare strumenti di Retrieval Augmented Generation

Ma questi temi saranno oggetto di un altro post.

Il ruolo della UX

Questo post rientra in un progetto più ampio che sto covando (è ancora in fase piuttosto embrionale) a cui ho dato il nome di GAIA X: Generative AI Augmented|Assisted Experience. Sto cercando di capire quali possano essere gli approcci più utili nel definire una corretta Human-AI interaction. Spero, nei prossimi mesi, di raccontarvi qualcosa di più su questa idea.

Testi citati

Dell'Acqua, Fabrizio and {McFowland} {III}, Edward and Mollick, Ethan R and Lifshitz-Assaf, Hila and Kellogg, Katherine and Rajendran, Saran and Krayer, Lisa and Candelon, François and Lakhani, Karim R (2023). Navigating the jagged technological frontier: Field experimental evidence of the effects of {AI} on knowledge worker productivity and quality;
Griot, Maxime and Hemptinne, Coralie and Vanderdonckt, Jean and Yuksel, Demet (2025). Large Language Models lack essential metacognition for reliable medical reasoning;
Handler, Rebecca and Sharma, Sonali and Hernandez-Boussard, Tina (2025). The fragile intelligence of {GPT}-5 in medicine;
Mohsin, Muhammad Ahmed and Umer, Muhammad and Bilal, Ahsan and Memon, Zeeshan and Qadir, Muhammad Ibtsaam and Bhattacharya, Sagnik and Rizwan, Hassan and Gorle, Abhiram R. and Kazmi, Maahe Zehra and Mohsin, Ayesha and Rafique, Muhammad Usman and He, Zihao and Mehta, Pulkit and Jamshed, Muhammad Ali and Cioffi, John M. (2025). On the Fundamental Limits of {LLMs} at Scale;

Iscriviti alla newsletter

Prospettiva UX è una newsletter dedicata ad ux, architettura dell'informazione, usabilità.
Visualizza gli articoli pubblicati

Iscriviti usando la form di Mailchimp

Cookies

Questo sito utilizza cookies tecnici e di terze parti quali google analytics per funzionalità tecniche e statistiche.

Se non acconsenti all'utilizzo dei cookie di terze parti, alcune di queste funzionalità potrebbero essere non disponibili.