Machine learning e dati sintetici per lo studio delle malattie ematologiche rare

Condividi su      
 G. Castellani    30-11-2022     Leggi in PDF
Immagini istopatologiche sintetiche.

Dall'intelligenza artificiale nascono dati sintetici per facilitare lo studio di malattie ematologiche rare come l'anemia falciforme e la leucemia mieloide acuta. Il progetto Horizon Europe SYNTHEMA (Synthetic generation of hematological data over federated computing frameworks), a cui partecipa un gruppo di fisici dell'Università di Bologna, svilupperà tecniche innovative basate sull'intelligenza artificiale per affrontare e superare l'attuale scarsità e frammentazione dei dati disponibili su queste patologie rare.

Se le malattie ematologiche sono infatti in gran parte rare, il numero complessivo di pazienti coinvolti a livello mondiale è però elevato: una situazione che ha un impatto profondo sulle società e sui sistemi sanitari di molti paesi. Nonostante l'esistenza di diversi gruppi di ricerca collaborativa sia a livello nazionale che europeo, gli attuali approcci clinici sono spesso inefficaci: in particolare, questo è vero per le malattie più rare, dove il numero relativamente basso di pazienti per malattia e l'alto numero di entità cliniche diverse non collegate tra loro rallentano lo studio di queste patologie.

Uno strumento per superare questo problema è quello dei cosiddetti dati sintetici. Attraverso particolari sistemi di intelligenza artificiale, a partire da serie di dati clinici reali, è infatti possibile generare insiemi di dati artificiali con le stesse proprietà statistiche dei dati di partenza. La tecnologia sfrutta le metodiche di campionamento dello "spazio latente" generato da procedure di "dimensionality reduction". Non essendo dati reali, questi "dati sintetici" non sono soggetti alle restrizioni europee sulla privacy e permettono di colmare la sempre presente scarsità di dati che condiziona le performance dei modelli di intelligenza artificiale.

I dati sintetici prodotti nell'ambito del progetto SYNTHEMA nasceranno infatti in un ambiente di "federated learning": una tecnologia di intelligenza artificiale che parte da un primo apprendimento parziale dai vari siti dove dati risiedono i dati reali, per poi completare l’apprendimento in un server centralizzato attraverso lo scambio con i nodi remoti dei soli parametri appresi localmente.

Gli studiosi dell'Università di Bologna coinvolti nel progetto sono, oltre a chi scrive, Enrico Giampieri, Claudia Sala, Filippo Piccinini e Daniel Remondini, appartenenti al gruppo di Fisica Applicata alla Medicina dei Dipartimenti di Medicina Specialistica Diagnostica e Sperimentale e del Dipartimento di Fisica e Astronomia: a loro è affidato il compito di generare e validare i dati sintetici prodotti da SYNTHEMA, che saranno sia di tipo multi-omico, sia di imaging, sia di tipo clinico-laboratoristico.

Lo stesso gruppo di studiosi dell'Alma Mater partecipa inoltre al progetto europeo GenoMed4All (Genomics and Personalized Medicine for all through Artificial Intelligence in Ematological Diseases), finalizzato anche in questo caso al "federated learning" per lo studio di alcune malattie ematologiche.


Per saperne di più

Gastone Castellani – Laureato in Biologia e Fisica e dottore di ricerca in Fisica, è professore ordinario di Fisica Applicata e Biofisica presso l'Università di Bologna, Dipartimento di Medicina Specialistica Diagnostica e Sperimentale (DIMES). È stato fondatore e direttore del Centro Interdipartimentale "L. Galvani" per ricerche in biofisica, bioinformatica e biocomplessità. È attualmente direttore della Scuola di Specializzazione in Fisica Medica dell'Università di Bologna. Dal 2000 è professore di ricerca alla Brown University (Providence, Rhode Island, USA), dove svolge ricerca nell'ambito del gruppo guidato da Leon N. Cooper su temi di machine learning, neural networks e big data analytics nell'ambito della biofisica, dell'espressione genica e della bioinformatica.