Dalla Radiologia, alla Oncologia, alla Cardiologia… l’impiego di tecnologie AI si è diffuso rapidamente negli ultimi dieci anni, grazie al progressivo e intenso sviluppo dell’analisi computerizzata che ha portato anche i medici e gli specialisti a comprendere il valore di queste nuove tecnologie, importante supporto al loro lavoro, al riconoscimento di malattie e degenerazioni non sempre visibili all’occhio umano o, comunque, in tempi molto più brevi. Notevoli, però, anche i dubbi che continuano a emergere, sia per il “problema della scatola nera” per il quale i medici non sempre comprendono e possono gestire tutti i risultati derivanti dalle elaborazioni dell’AI, sia da un punto di vista legale. La AI, infatti, presenta ancora diversi limiti, derivanti dalla biologia umana. Le persone, i pazienti sono diversi di origini e culture e i sistemi AI dovrebbero essere valutati prendendo in considerazione i fattori su cui si basano i propri sviluppi e la varietà del genere umano, presupposti che incidono sugli esiti delle rilevazioni effettuate dai sistemi stessi e delle diagnosi mediche.
Autore: Prof. Luca Pani, Università degli Studi di Modena e Reggio Emilia (pagina personale)
L’idea di impiegare i computer per leggere le scansioni radiologiche non è una novità. Già dagli anni ’90 i radiologi avevano cominciato a utilizzare un programma chiamato Computer Assisted Diagnosis (CAD) per individuare il cancro al seno nelle mammografie. Da principio la tecnologia venne acclamata come rivoluzionaria e molte cliniche l’adottarono rapidamente. Ma il CAD si è rivelato più dispendioso in termini di tempo e difficile da usare rispetto ai metodi esistenti all’epoca e, secondo alcuni studi, le cliniche che lo utilizzavano commettevano più errori rispetto a quelle che non lo facevano.
Nell’ultimo decennio l’analisi computerizzata è migliorata nelle applicazioni quotidiane (come il riconoscimento dei volti) e in medicina. Il progresso è stato in gran parte guidato dallo sviluppo di metodi di apprendimento profondo (deep learning), in cui un computer riceve un insieme di immagini e poi viene lasciato libero di disegnare le proprie connessioni tra di esse, sviluppando in ultima analisi una rete di associazioni. In medicina questo potrebbe comportare, concretamente, ad esempio, l’indicare al computer quali immagini contengono il cancro e liberarlo dalla necessità di trovare caratteristiche comuni ad altre immagini prive di cancro.
Lo sviluppo e l’adozione delle tecnologie di AI in radiologia si è diffuso rapidamente. La ricerca della professoressa Regina Barzilay – che aveva iniziato la sua carriera lavorando sulla elaborazione del linguaggio naturale – utilizzava tecniche di apprendimento automatico, una forma di Intelligenza Artificiale per l’elaborazione in linguaggio naturale. Il suo lavoro mirava a trovare una nuova linea di ricerca e ha deciso di collaborare con i radiologi per sviluppare algoritmi di apprendimento automatico che utilizzano l’analisi visiva superiore del computer per individuare i modelli sottili nelle mammografie che l’occhio umano potrebbe non vedere. Avviata nel 2014, nei quattro anni successivi il team ha insegnato a un programma per computer ad analizzare le mammografie di circa 32.000 donne di età e razza diverse e ha indicato quali donne avevano ricevuto la diagnosi di cancro entro cinque anni dalla scansione. Il team ha poi testato le capacità del computer di individuare la corrispondenza in altri 3.800 pazienti. L’algoritmo risultante (pubblicato lo scorso maggio su “Radiology”) si è rilevato essere significativamente più accurato nel prevedere il cancro – o l’assenza di cancro – rispetto alle pratiche generalmente utilizzate nelle cliniche. Quando il team della Barzilay ha eseguito il programma sulle sue mammografie del 2012 – e il suo medico ha approvato l’algoritmo – ha correttamente previsto che il suo rischio di sviluppare un tumore al seno era più alto entro cinque anni rispetto al 98% delle pazienti esaminati.
Gli algoritmi di AI non solo individuano dettagli particolarmente sottili, tali da essere più difficili da individuare dall’occhio umano, ma possono anche sviluppare modalità completamente nuove di interpretare le immagini mediche, a volte tali da essere anche difficilmente compresi dall’essere umano. I numerosi ricercatori, le start-up e i produttori di scanner che progettano programmi di AI sperano di poter migliorare l’accuratezza e la tempestività delle diagnosi, fornire un trattamento migliore ai Paesi in via di sviluppo e nelle regioni remote che mancano di radiologi; mirano anche a rivelare nuovi legami tra biologia e malattia, con l’obiettivo di prevedere con largo anticipo l’eventuale causa di decesso. E persino aiutare a prevedere quanto potrà (soprav)vivere una persona.
Le applicazioni di AI stanno entrando nelle cliniche a ritmo serrato e i medici hanno compreso il valore dell’impiego della tecnologia, meno prevenuti verso la loro adozione e sempre più consapevoli del potenziale nel ridurre anche il loro carico di lavoro e meno preoccupati di perdere il proprio lavoro a causa delle macchine.
Gli algoritmi sollevano, al contempo, domande senza precedenti su come gestire una macchina che sta imparando, e cambiando costantemente, e come trattare con chi è da biasimare se un algoritmo sbaglia una diagnosi. Tuttavia, nel complesso, molti medici sono entusiasti della promessa dei programmi di AI.
“Se questi modelli possono essere controllati a sufficienza, e possiamo aumentare il nostro livello di comprensione sul loro funzionamento, ci sono le condizioni per accrescere il livello di assistenza sanitaria per tutti”, afferma Matthew Lungren, un radiologo dell’Università di Stanford.
La U.S.Food and Drug Administration dichiara di non tenere un elenco dei prodotti di AI che ha approvato. Ma Eric Topol, ricercatore di Medicina Digitale presso lo Scripps Research Institute di La Jolla (California), stima che l’agenzia stia approvando più di un algoritmo di imaging medico al mese. Un’indagine del 2018, condotta dalla società di marketing e intelligence Reaction Data, aveva rilevato che l’84% delle cliniche radiologiche statunitensi ha adottato o prevedeva di adottare programmi di AI.
Il settore sta crescendo particolarmente rapidamente in Cina, dove oltre un centinaio di aziende sta progettando applicazioni di AI per l’assistenza sanitaria.
“È un momento affascinante per lavorare in questo mercato”, dice Elad Walach, CEO della start-up Aidoc con sede a Tel Aviv. L’azienda sviluppa algoritmi per analizzare le scansioni TAC che presentano anomalie e per portare in cima alla lista delle priorità di un medico quei pazienti che le presentano. Aidoc, inoltre, tiene traccia della frequenza con cui i medici utilizzano il programma e di quanto tempo trascorrono a valutarne le conclusioni. “All’inizio sono scettici, ma dopo due mesi si abituano e si fidano molto”, dice Walach.
Risparmiare tempo può essere fondamentale per salvare un paziente.
Un recente studio di radiografie del torace per i polmoni collassati ha permesso di scoprire che i radiologi segnalano come altamente prioritaria più del 60% delle scansioni che ordinano, il che suggerisce che potrebbero passare ore a esaminare i casi non gravi prima di arrivare a quelli effettivamente urgenti. “Ogni medico con cui parlo ha una storia in cui ha perso un paziente a causa di un polmone collassato”, dice Karley Yoder, Vicepresidente e Direttore Generale AI presso la GE Healthcare di Boston – uno dei principali produttori di apparecchiature di imaging medico. Nel settembre 2020 la FDA ha approvato una serie di strumenti di AI che presto verranno incorporati negli scanner GE, per segnalare automaticamente i casi più urgenti.
Poiché sono in grado di elaborare enormi quantità di dati, i computer possono svolgere compiti analitici che vanno oltre le capacità umane.
Google, per esempio, sta usando la sua potenza di calcolo per sviluppare algoritmi di AI che costruiscono immagini TAC bidimensionali dei polmoni in un polmone tridimensionale e guardano l’intera struttura per determinare se il cancro è presente. I radiologi, invece, devono guardare queste immagini individualmente e cercare di ricostruirle mentalmente.
Un altro algoritmo di Google può individuare qualcosa che i radiologi non possono valutare: determinare il rischio di malattie cardiovascolari nei pazienti guardando una scansione della loro retina, rilevando i sottili cambiamenti legati alla pressione sanguigna, al colesterolo, all’anamnesi del fumo e all’invecchiamento.
“C’è un potenziale segnale al di là di quanto si sapeva prima”, dice il Product Manager di Google Daniel Tse. I programmi di AI potrebbero essere finalizzati rivelando collegamenti completamente nuovi tra le caratteristiche biologiche e gli esiti degli esami dei pazienti. Un articolo del 2019 di JAMA Network Open ha descritto un algoritmo di apprendimento approfondito, formato su più di 85.000 radiografie del torace di persone arruolate in due grandi studi clinici che le avevano seguite per più di 12 anni. L’algoritmo ha valutato il rischio di morte di ogni paziente durante questo periodo. I ricercatori hanno scoperto che il 53% delle persone che l’AI ha inserito in una categoria “ad alto rischio” è deceduto entro i 12 anni, contro il 4% nella categoria “a basso rischio”. L’algoritmo non aveva informazioni su chi era morto o sulla causa della morte. Il ricercatore capo, il radiologo Michael Lu del Massachusetts General Hospital, ritiene che l’algoritmo potrebbe essere uno strumento utile per esaminare la salute del paziente se combinato con la valutazione di un medico e altri dati, come la genetica.
Per capire come funzionava l’algoritmo, i ricercatori hanno identificato le parti di immagini che ha usato per fare i suoi calcoli. Alcune, come la circonferenza del girovita e la struttura del seno delle donne, avevano senso perché queste aree possono far pensare a fattori di rischio noti per alcune malattie. Ma l’algoritmo ha esaminato anche la regione sotto le scapole delle pazienti, che non ha un significato medico noto. Michael Lu ipotizza che la flessibilità possa essere un fattore predittivo di una vita più breve. Fare una radiografia del torace spesso richiede ai pazienti di abbracciare la macchina e le persone meno sane, che non possono mettere le braccia tutto intorno a essa, potrebbero posizionare le spalle in modo diverso. “Non sono cose che avrei pensato ex novo e che potrei non capire”, dice Lu.
Lo scollamento tra il modo in cui i computer e gli esseri umani pensano è noto come il “problema della scatola nera”, ossia l’idea che il cervello di un computer operi in uno spazio oscuro e inaccessibile agli esseri umani. Gli esperti non sono d’accordo sul fatto che ciò rappresenti un problema nell’imaging medico. Da un lato, se un algoritmo migliora costantemente le prestazioni dei medici e la salute dei pazienti, i medici non hanno bisogno di sapere come funziona. Dopotutto, i ricercatori non comprendono ancora appieno i meccanismi di molti farmaci come il litio, che è stato utilizzato per trattare la depressione fin dagli anni ’50. “Forse non dovremmo essere così fissati, perché il modo in cui gli esseri umani lavorano in medicina è la scatola nera che si può ottenere”, dice Topol. “Teniamo le macchine a uno standard più elevato?”.
Tuttavia, non si può negare che la scatola nera rappresenti un’ampia opportunità per l’incomprensione Uomo-AI. Per esempio, i ricercatori della Scuola di Medicina Icahn del Monte Sinai sono rimasti profondamente perplessi da una discrepanza nelle prestazioni di un algoritmo di deep learning che avevano sviluppato per identificare la polmonite nelle radiografie ai polmoni.
L’algoritmo ha eseguito la valutazione con una precisione superiore al 90% sulle radiografie prodotte al Mount Sinai, ma è stato molto meno accurato con le scansioni di altre istituzioni. Alla fine hanno capito che, invece di limitarsi ad analizzare le immagini, l’algoritmo stava anche calcolando le probabilità di un riscontro positivo basato su quanto la polmonite fosse comune in ogni istituto – cosa che non si aspettavano o che non volevano che il programma facesse -.
Fattori che creano confusione, come questi, preoccupano Samuel Finlayson, che studia applicazioni biomediche di machine learning alla Harvard Medical School. Egli osserva che i set di dati sui quali viene addestrata la AI possono essere distorti in modi che gli sviluppatori non riescono a considerare. Un’immagine scattata in un Pronto Soccorso, o una scattata nel cuore della notte, ha più probabilità di mostrare una persona malata rispetto a una scattata durante un esame di routine, ad esempio. Un algoritmo potrebbe anche imparare a osservare le cicatrici o gli impianti di dispositivi medici che indicano un precedente problema di salute e decidere che le persone senza questi segni non hanno la condizione prevista. Anche il modo in cui gli enti etichettano le proprie immagini può confondere un algoritmo di AI e impedire che il modello funzioni bene in un diverso ente con un sistema di etichettatura diverso. “Se si addestra ingenuamente un algoritmo di un ospedale in un luogo, una occasione e su un gruppo di persone, non si è consapevoli di tutte le migliaia di piccoli fattori che i modelli prendono in considerazione. Se uno di questi cambia, si può provocare un mondo di danni”, avverte Finlayson. La soluzione, ritiene Finlayson, è quella di addestrare un algoritmo con dati provenienti da molte località e da diverse popolazioni di pazienti, per poi testarlo prospetticamente – senza alcuna modifica – su una nuova popolazione di pazienti. Ma riconosce che pochissimi algoritmi sono stati testati in questo modo.
Secondo la recente revisione “Nature Medicine” di Topol, tra decine di studi che sostengono che un’AI funziona meglio dei radiologi, solo una manciata di esse è stata testata in popolazioni diverse da quelle su cui è stata sviluppata. “Gli algoritmi sono molto, molto delicati”, dice Cynthia Rudin, scienziata informatica della Duke University. “Se si cerca di usarne uno al di fuori del set di formazione di immagini, non sempre funziona”.
Man mano che i ricercatori si rendono conto di questo problema, potrebbero essere all’orizzonte altri studi prospettici in nuovi contesti. Il team di Barzilay ha recentemente finito di testare la sua mammografia AI su 10.000 scansioni del Karolinska Institute, in Svezia, e ha scoperto che si è comportata altrettanto correttamente in quell’area come nel Massachusetts. Il gruppo sta ora lavorando con gli ospedali di Taiwan e Detroit per testarla in gruppi di pazienti più diversi. “Il team ha scoperto che gli attuali standard per la valutazione del rischio di cancro al seno sono molto meno accurati sulle donne afroamericane”, afferma Barzilay “perché questi standard sono stati sviluppati principalmente utilizzando scansioni di donne bianche. Ma credo che siamo davvero in grado di modificare questo triste stato delle cose”.
Anche se le conclusioni dell’AI sono rilevanti dal punto di vista medico, la scatola nera presenta ancora una serie di preoccupazioni dal punto di vista legale. Se una AI sbaglia la diagnosi può essere difficile determinare se la colpa è del medico o del programma. “Nella sanità accadono molte cose spiacevoli, e non si sa necessariamente perché siano accadute”, dice Nicholson Price, un esperto di Diritto Sanitario dell’Università del Michigan. “Se un sistema di AI porta un medico a valutare una diagnosi errata, il medico potrebbe non essere in grado di spiegare perché e i dati dell’azienda, sulla metodologia del test, sono probabilmente un segreto commerciale strettamente sorvegliato”.
Per approfondimenti: Deep-learning algorithms are peering into MRIs and x-rays with unmatched vision, but who is to blame when they make a mistake?