La scienza espressa

Intelligenza Artificiale versus medici

La diagnostica medica, nel corso del tempo, si è ovviamente evoluta ed è costantemente migliorata. Per fortuna, sono lontani i tempi in cui il medico di campagna faceva diagnosi basandosi solamente su quello che sapeva, vedeva, sentiva e percepiva. Lo sviluppo teorico e tecnologico ha permesso l’invenzione e l’utilizzo di strumenti, tecniche e macchinari via via più precisi, che aiutano gli esperti a diagnosticare le varie patologie. Ma la diagnosi (finale) spetta sempre al medico, la decisione è la sua. Un medico è più bravo rispetto ai suoi colleghi se identifica in maniera percentualmente maggiore i veri positivi e i veri negativi. Semplice. Poi è arrivata l’Intelligenza Artificiale. In Germania è stato fatto uno “studio-challenge”, nel quale un grande gruppo internazionale di 58 dermatologi, di cui trenta esperti, ha confrontato le proprie diagnosi con un modello di deep learning addestrato con le reti neurali convoluzionali (CNN). I dermatologi e le CNN dovevano basare le rispettive diagnosi su due livelli: a livello 1 solo dermatoscopia; a livello 2 dermatoscopia più informazioni cliniche e immagini.

Ma cosa sono le CNN? Dovendo ahimè spiegare per riduzione di complessità – altrimenti consiglio di leggere gratuitamente “Introduction to convolutional neural networks” di J. Wu –, immaginate che l’obiettivo del computer (cioè il modello ML) sia riconoscere le immagini di tacchini (dai non-tacchini, ovviamente). Gli si passano, quindi, foto di tacchini e da lì le CNN passano al vaglio ogni piccolissima porzione delle immagini. Successivamente viene applicata una funzione di attivazione (chiamata ReLU, Rectified Linear Unit), che va alla ricerca di non linearità e irregolarità nell’immagine, ovvero dei tratti che (a suo avviso) contraddistinguono i tacchini dal resto del mondo. Le dimensioni delle immagini vengono poi ridotte, mantenendo solo ciò che viene ritenuto importante per l’individuazione dei tacchini. Questo processo viene ripetuto più volte su diversi strati o layer (convoluzionali, appunto). Questi strati vengono “combinati” e applicati a ciascuna immagine, e da qui le CNN decidono se si tratta di tacchini oppure no. Nella fase di apprendimento del modello, vengono passate tantissime immagini (talvolta anche nell’ordine dei miliardi) di tacchini, non-tacchini e simil-tacchini (fagiani, per esempio), specificando ovviamente cosa sono, dimodoché le CNN con una retropropagazione possano aggiornare i pesi e gli algoritmi per massimizzare il risultato.

In sintesi, in questo studio, le performance di moltissimi dermatologi (non tutti, chiaramente) sono state superate dall’Intelligenza Artificiale. Al livello 2, la specificity (indicatore statistico che mette a rapporto i veri negativi su tutti i non-malati) media degli umani è stata 76%, quella delle CNN 83%. Un aumento significativo. In un altro studio, sono state “istruite” e modellate reti neurali di un’altra tipologia, le cosiddette Echo State Network (ESN), qui utilizzate per prevedere aritmie analizzando l’ECG (l’elettriocardiogramma). Le ESN sono un tipo di rete neurale molto efficiente, caratterizzate da tre strati (o layer): il primo sarebbe l’input, nel nostro caso l’ECG, il secondo strato si chiama “reservoir” (ovvero “serbatoio”), dove sono disposti casualmente un gran numero di neuroni, connessi tra di loro, i cui pesi sono anch’essi ugualmente casuali e non vengono cambiati durante la fase di apprendimento. Quindi, se non variano i pesi, cosa varia nella fase di addestramento del modello? Cambia l’output finale. Questo tipo di modellazione, che è molto efficiente rispetto ad altre tecniche di reti neurali, è particolarmente adatto per esempio nel riconoscimento della scrittura manuale, o di eventi o serie temporali, in qualche modo ricorrenti, come il battito cardiaco appunto. In questo studio, (purtroppo) non è stato previsto un confronto diretto con operatori umani, tuttavia i risultati ottenuti sono molto promettenti, con una sensitivity (altro indicatore statistico che però mette a rapporto i veri positivi su tutti i malati, al di là della diagnosi) che varia tra il 93% e il 96%.

La letteratura si sta popolando di studi sperimentali e innovativi, applicati peraltro a situazioni estremamente serie e complicate. In un altro articolo (4), pubblicato su Nature, sono stati applicati modelli di Intelligenza Artificiale (ancora reti neurali) sulla diagnostica del cancro al seno, tramite mammografia. Com’è noto, per moltissimi tipi di tumore, è fondamentale non solo la diagnosi ma anche il tempismo con cui viene fatta. Poiché, se il cancro viene diagnostico in anticipo, può essere trattato e curato con maggiori probabilità di successo e guarigione. Nel caso specifico dello studio, viene evidenziato come in questa branca della diagnostica tumorale ci siano ancora troppi casi di falsi positivi e falsi negativi, di cui questi ultimi rappresentano il più grosso problema poiché sono persone a cui a tutti gli effetti non viene diagnosticato (e quindi curato) un cancro. Dal falso positivo però, oltre che creare ovviamente falsi allarmi in una persona sostanzialmente sana, consegue un problema economico e un problema sanitario, poiché va ad allocare tempo, risorse e spazi a danni di persone potenzialmente malate. L’utilizzo di nuovi modelli AI ha come obiettivo appunto quello di ridurre le percentuali di falsi positivi e falsi negativi, e sta funzionando: in questo studio anglo-americano vi è una riduzione del 6% (USA) e dell’1% (UK) dei falsi positivi, del 9% (USA) e del 3% (UK) dei falsi negativi, rispetto alle diagnosi di radiologi umani. Ma non solo, un sistema AI-integrato riduce anche il processo di doppia-lettura (per i casi più dubbi) addirittura dell’88%. Il tutto a vantaggio dei pazienti, dottori e sistema sanitario. Non male.

Dulcis in fundo, è quasi d’obbligo chiudere con uno dei maggiori studi di Pranav Rajpurkar, ricercatore alla Stanford University, tra i più importanti al mondo nella diagnostica medica. Insieme al suo gruppo, ha costruito un algoritmo proprietario chiamato “CheXNet” (5). Si tratta di una rete neurale convoluzionale (CNN) a 121 strati che prende in input un’immagine radiografica del torace e fornisce in output la probabilità di una patologia e la stessa immagine della radiografia di input, accentuando a livello cromatico le zone fisiche dove probabilisticamente è situata la malattia; ne può identificare ben 14 tipi (tra le quali masse tumorali, polmoniti, noduli, enfisemi ecc.) ed è stata addestrata con 112 mila immagini a raggi X. CheXNet, oltre a performare meglio rispetto ai modelli CNN dello stesso tipo, performa meglio anche dei radiologi (di Stanford) che hanno partecipato allo studio, su un campione di diecimila radiografie. L’F1 medio dei radiologi è stato 0,387, quello di CheXNet 0.435 (l’F1 non è uno score automobilistico ma anch’esso statistico, e si ricava ugualmente dalla matrice di confusione: più è alto, più le performance del modello sono accurate).

La grande novità, a tratti rivoluzionaria, che ha investito anche il mondo della medicina (forse, storicamente, uno dei più conservatori), è il ribaltamento del metodo scientifico galileiano: ovvero da un approccio del tipo “ipotesi-esperimento-teoria/conoscenza” si è passato a “esperimento-(tesi, non sempre a disposizione)-conoscenza”. In nuce, ai modelli deep learning non vengono passate regole o informazioni (derivate da un’ipotesi o da una teoria). Vengono dati esempi, positivi e negativi. Tantissimi esempi. Con la possibilità di sbagliare, di apprendere, di correggere i propri errori, i propri pesi e le regole dei propri algoritmi. L’apprendimento avverrà automaticamente da parte del modello stesso. La tesi sottostante sarà irrilevante; la cosa più importante sarà il risultato.

Esattamente come quando si insegna a un bambino ad andare in bici: non gli si spiega il funzionamento della bici nelle sue parti, per esempio della catena, azionata dai pedali, che trasferisce energia cinetica alle ruote, una delle quali può essere direzionata dal manubrio ecc. Al bambino si mostra come si va in bici, e lo si lascia imparare, sapendo che probabilmente sbaglierà e cadrà all’inizio, ma a ogni tentativo avrà imparato un pochino di più, imparerà dalla sua esperienza. Fino a quando potrà anche lui dire “facile come andare in bicicletta!”. Chiaramente, questo argomento pone in questione alcuni temi etici: dobbiamo fidarci delle macchine più dei medici? Fino a che punto? Sempre? Nel caso, quanto è spiegabile a un paziente una probabilità di avere un tumore al 56%? Il dilemma etico-filosofico è tanto affascinante quanto complesso.

I medici possono dormire sonni tranquilli, per ora. La realtà è che siamo ancora lontani dalla loro sostituzione, ma siamo completamente dentro all’integrazione dell’AI nel processo decisionale. Rifiutarlo sarebbe insensato e dannoso. I modelli AI possono portare alla luce dettagli o pattern che erano sfuggiti all’umano. E lo possono fare letteralmente in pochi secondi. Il loro aiuto sarà preziosissimo. Sarà, quindi, nevralgico (e necessario) un equilibrio tra medico e AI, dove chiaramente il “lato umano” verso il paziente continuerà a essere fondamentale. Non solo, l’impiego di questi tipi di modelli (che via via saranno migliori e più accurati) sarà importante non solo nella diagnosi, ma anche nella terapia, insomma in tutto il processo medicale e sanitario, sin dalla prevenzione e fino alla cura. Per tutte le persone, in tutto il mondo.

Alessio Ricci

Senior Data Scientist presso Cerved Group

Per saperne di più

  • Haenssle, H. A., Fink, C., Schneiderbauer, R., Toberer, F., Buhl, T., Blum, A., … & Zalaudek, I. (2018). Man against machine: diagnostic performance of a deep learning convolutional neural network for dermoscopic melanoma recognition in comparison to 58 dermatologists. Annals of oncology29(8), 1836-1842.
  • Wu, J. (2017). Introduction to convolutional neural networks. National Key Lab for Novel Software Technology. Nanjing University. China5(23), 495.
  • Alfaras, M., Soriano, M. C. and Ortín S. (2019). A Fast Machine Learning Model for ECG-Based Heartbeat Classification and Arrhythmia Detection. Phys. 7:103. doi: 10.3389/fphy.2019.00103
  • McKinney, S. M., Sieniek, M., Godbole, V., Godwin, J., Antropova, N., Ashrafian, H., … & Shetty, S. (2020). International evaluation of an AI system for breast cancer screening. Nature, 577(7788), 89-94.
  • Rajpurkar, P., Irvin, J., Zhu, K., Yang, B., Mehta, H., Duan, T., … & Ng, A. Y. (2017). Chexnet: Radiologist-level pneumonia detection on chest x-rays with deep learning. arXiv preprint arXiv:1711.05225.

Nel nostro catalogo: Algocrazia, Le mie epidemie

Carrello
Torna in alto