ChatGPT Health e il rischio triage: l’AI può sbagliare le emergenze mediche

La tentazione è forte: chiedere a un chatbot cosa fare quando non stai bene. Ma cosa succede se l’AI non riconosce un’emergenza vera? E soprattutto: chi si prende la responsabilità quando il consiglio sbagliato costa minuti preziosi?

Cos’è ChatGPT Health e perché se ne parla

ChatGPT Health è stato presentato come il ponte tra cartelle cliniche, app per il benessere e un assistente intelligente capace di rispondere a domande sulla salute. Promessa allettante: informazioni rapide, personalizzate, sempre disponibili. Rischio implicito: confondere un semplice supporto informativo con un parere medico.

Il punto è semplice. Nella vita reale le persone chiedono all’AI cosa fare adesso, non una lezione di anatomia. Se l’assistente minimizza i segnali di allarme o non spinge esplicitamente a chiamare i soccorsi, il sistema fallisce nel compito più importante: indirizzare correttamente i casi urgenti.

Se vuoi ricevere ogni mattina la puntata con le fonti originali, iscriviti alla newsletter de Il Caffettino.

Cosa emerge dall’inchiesta

Secondo un’approfondita inchiesta del The Guardian, in diversi test ChatGPT Health avrebbe fornito risposte che non riconoscono o sottovalutano situazioni potenzialmente urgenti, non consigliando di richiedere assistenza immediata. Non è una crociata contro la tecnologia: è un esame di realtà sui suoi limiti quando la posta in gioco è la salute.

Il test: scenari realistici e revisione clinica

Lo studio citato dal The Guardian ricostruisce 60 scenari clinici realistici, dal disturbo lieve all’emergenza, valutati da medici indipendenti. L’obiettivo: verificare se, davanti a casi urgenti, l’assistente spinga chiaramente l’utente a recarsi subito in pronto soccorso o a chiamare i soccorsi.

I numeri che fanno riflettere

Quando l’emergenza è “da manuale” (es. ictus, gravi reazioni allergiche), l’AI se la cava. Ma basta uscire dal copione perché i consigli diventino troppo prudenti o fuorvianti.
Nel 51,6% dei casi in cui era necessario andare immediatamente in ospedale, il sistema avrebbe suggerito di restare a casa o di prenotare una visita di routine.
In uno scenario di asma con chiari segni di insufficienza respiratoria, la risposta consigliava di aspettare invece di attivare il percorso d’emergenza.
In una simulazione di soffocamento, 8 volte su 10 l’utente sarebbe stato indirizzato a un appuntamento nel futuro (al quale non arriverebbe mai).
Quando l’utente aggiungeva che un amico “minimizzava” i sintomi, la piattaforma risultava molto più propensa a minimizzare a sua volta, amplificando il bias iniziale.

In altre parole: più il contesto è ambiguo o sfumato, più l’AI rischia di normalizzare segnali che per un clinico sarebbero campanelli d’allarme.

Perché succede: limiti tecnici, UX e aspettative

Ambiguità del linguaggio naturale: i sintomi reali raramente sono “puliti”. Senza parametri oggettivi (vitali, esami, saturazione), il modello fatica a valutare la gravità.
Effetto specchio sui bias dell’utente: se scrivi “penso non sia nulla”, l’AI può ricalcare la minimizzazione invece di controbilanciarla con red flag.
Allineamento e responsabilità: per evitare allarmismi, i modelli tendono a risposte caute e generiche. Ma la cautela eccessiva può diventare ritardo.
Mancanza di protocolli di escalation integrati: servono trigger espliciti (parole chiave, combinazioni di sintomi) che sblocchino messaggi come “chiama subito il 112/118”.
UX che non separa informazione da triage: se l’interfaccia offre consigli “tranquillizzanti” accanto a sintomi gravi, l’utente interpreta il tutto come un beneplacito a restare a casa.

Guardrail e responsabilità: come si progetta (davvero) la sicurezza

Design orientato all’emergenza

Red flag hard-coded: liste validate clinicamente (dolore toracico improvviso, dispnea severa, parole chiave su trauma, emorragie, perdita di coscienza) che forzano la raccomandazione d’emergenza.
Messaggi non negoziabili: quando scattano i red flag, niente chiacchiere: “Chiama subito il 112/118 o vai al pronto soccorso”. Grande, visibile, ripetuto.
Flussi di escalation: da chat a numero d’emergenza con un tap, avvisi localizzati e istruzioni di primo soccorso standardizzate (non personalizzazioni creative).
Controllo clinico continuo: audit periodici, dataset aggiornati, e validazione da parte di medici su casi-limite e “zone grigie”.

Trasparenza e limiti d’uso

Disclaimers utili, non legali: poche righe chiare su cosa l’AI non fa (diagnosi, triage) e quando serve subito l’intervento umano.
Formazione dell’utente: onboarding con esempi pratici: “se vedi X+Y, non aspettare la chat, chiama i soccorsi”.
Tracciabilità: log delle decisioni e incident reporting per capire dove e perché il sistema minimizza.

Chi risponde di cosa

È il nodo scomodo. Il modello genera testo, la piattaforma lo eroga con un certo design, l’utente interpreta. Senza responsabilità chiare e standard minimi di sicurezza, il rischio ricade sull’anello più debole: la persona che chiede aiuto. Serve governance: criteri pubblici, auditing indipendente e canali rapidi di correzione.

Cosa fare oggi, in pratica

Segnali di emergenza? Chiama subito il 112/118 o vai al pronto soccorso. Non aspettare il responso di un chatbot.
Usa l’AI per organizzare documenti, appuntamenti e promemoria, non per sostituire un consulto clinico.
Verifica le informazioni su fonti ufficiali e confrontale con un medico, soprattutto se i sintomi cambiano o peggiorano.
Descrivi i sintomi con precisione (tempi, intensità, fattori scatenanti), ma ricorda: una risposta ben scritta non è un via libera clinico.

Se vuoi restare aggiornato su AI e innovazione, iscriviti alla newsletter e ricevi ogni mattina la puntata con le fonti.

👉 Per scoprire tutti i dettagli e l’opinione personale di Mario Moroni, ascolta la puntata completa su Spotify.