I dati sintetici nell’healthcare grazie all’AI generativa

Train ha sviluppato un’intelligenza artificiale generativa per creare dati sintetici, utili per condurre ricerche scientifico-mediche rispettando la privacy.

dati sintetici

NTT Data, società che opera nei servizi tecnologici e business digitale e Train, spin-off dell’IRCCS Istituto Clinico Humanitas per lo sviluppo dell’AI generativa, hanno presentato alla stampa il report “Generative AI and synthetic data for clinical application”, centrato sul ruolo dell’intelligenza artificiale generativa per creare dati sintetici per i settori farmaceutico e healthcare. L’evento è stato condotto da Emanuele Corbetta, Head of Life Sciences di NTT DATA Italia, Saverio D’Amico, CEO e Co-Founder di Train, Matteo Della Porta, CSO e Co-Founder di Train e Head of leukemia unit di Humanitas.

dati sintetici

Emanuele Corbetta
Grazie alle sue competenze, NTT Data offre una piattaforma tecnologica sicura e adattabile, che integra soluzioni tecnologiche avanzate nel contesto healthcare e in quello farmaceutico. Questa piattaforma è solida e flessibile, supporta l’AI, la sicurezza dei dati, la scalabilità, la compliance e gli approcci di validazione dei modelli. Tutte queste caratteristiche sono ideali per le attività di Train, che quindi si appoggia alle nostre soluzioni tecnologiche.

Train: lo sviluppo di un’AI generativa per l’ healthcare

Train ha origine in Humanitas, un ospedale con un driver molto forte sulla parte di ricerca clinica, che nel 2018 ha fondato il Centro di Intelligenza Artificiale per supportare con l’AI i medici nel loro lavoro. Il Centro ha dapprima avviato partnership a livello europeo con istituti di ricerca e aziende del settore, poi ha aderito a progetti della Commissione Europea sull’AI applicata in campo medico.

Train, fondata nel 2023, si è concentrata sull’ottenimento dei dati medici necessari per addestrare un’intelligenza artificiale, dati che in campo sanitario è molto difficile ottenere in quantità. Questo sia per la necessità di rispettare la privacy sia per il numero limitato di persone che accusano una determinata patologia, perché Train ha scelto di concentrarsi sulle malattie rare del sangue.

Una delle innovazioni di Train è stata il federated learning, ovvero l’addestramento dei modelli AI in locale, in diversi ospedali e in maniera indipendente, per poi trasferire a un modello centrale quello che è stato appreso. In sostanza si condivide la conoscenza senza condividere i dati.

Il sistema tradizionale per ottenere dati che rispettino la privacy è ricorrere a pratiche di anonimizzazione. Ma questo approccio ha alcuni aspetti negativi. Innanzitutto più il dato è reso anonimo più si perdono informazioni significative, inoltre questi dati resi anonimi sono statici. Per esempio, se in un data set una categoria di pazienti è poco rappresentata oppure c’è un bias, non è possibile fare nulla per migliorare la ricchezza delle informazioni.

I dati sintetici

dati sintetici

Saverio D’Amico
Per superare i problemi legati ai dati reali, abbiamo sviluppato tecniche innovative per la creazione di nuovi dati tramite modelli di intelligenza artificiale generativa. Questi dati sintetici sono completi e complessi quanto quelli reali, Con i dati sintetici è consentito modificare il data set, facendone generare di nuovi all’intelligenza artificiale, così da soddisfare tutti i parametri della ricerca clinica. Di più, la generazione dei dati sintetici è molto veloce e semplice, non richiede tutte le procedure burocratiche necessarie per reperire i dati reali.

Per la generazione dei dati sintetici vengono impiegate diverse tecnologie avanzate, tra cui reti generative avversarie (GAN), codificatori automatici variazionali (VAE) e modelli basati su trasformatori (GPT). Ognuno di questi approcci offre punti di forza unici nel generare dati che assomigliano molto ai dati del mondo reale.

I dati sintetici vanno validati, con metodologie non basate sull’intelligenza artificiale ma su tecnologie statistiche convenzionali, che permettono di stabilire se questi dati rispettano le relazioni statistiche cliniche dei dati reali e in quale percentuale. Così è possibile conoscere la quantità di valore del dato reale trasferita nel dato sintetico. Ugualmente importante è rispettare la privacy in tutte le fasi di generazione e di validazione di questi dati.

Da notare che per la validazione dei dati sintetici non bisogna tanto focalizzarsi su come sono stati generati ma piuttosto garantire la massima trasparenza agli utilizzatori finali, ovvero aziende farmaceutiche, medici, pazienti, enti regolatori. Per questo Train ha come partner EMA (European Medicines Agency) in tutti i suoi progetti legati alla generazione dei dati sintetici. Il lavoro dell’azienda è fornire framework di validazione (SAFE, Synthetic vAlidation FramEwork) che rendano visibili in modo assolutamente trasparente la fedeltà del dato sintetico rispetto a quello reale. Solo così questi dati possono essere usati per ricerche clinico-scientifiche di interesse.

dati sintetici

In definitiva, l’uso di dati sintetici offre vantaggi importanti:

  • Generazione di dati illimitata: i dati sintetici possono essere prodotti su richiesta e in grandi quantità, per disporre di dati pressoché illimitati per analisi e formazione. Ciò è particolarmente vantaggioso quando la disponibilità di dati del mondo reale è limitata (per esempio nel caso di malattie rare) o quando sono richiesti grandi set di dati
  • Protezione della privacy: poiché i dati sintetici non contengono informazioni personali reali, consentono l’analisi e la condivisione senza compromettere la riservatezza. Ciò è fondamentale in contesti in cui le normative sulla privacy dei dati sono severe
  • Riduzione dei bias: i dati sintetici possono essere creati per ridurre i bias presenti nei dati del mondo reale. Creando set di dati bilanciati, i dati sintetici aiutano nella formazione di modelli più equi, migliorando così l’accuratezza e la qualità dei risultati

L’AI a supporto delle decisioni mediche

Train vuole rendere disponibile in ambito clinico la tecnologia dell’intelligenza artificiale, per accelerare il processo con cui i più moderni strumenti potenziati dall’AI possono essere usati nella pratica clinica a supporto delle decisioni mediche.

La strategia di Train opera su due fronti. Il primo è individuare i casi in cui le procedure cliniche standard sono in difficoltà, così da sviluppare una soluzione che sia non solo valida ma anche fortemente richiesta dai medici e dai ricercatori. Solo occupandosi dei casi più eclatanti, infatti, la soluzione di Train può diventare effettivamente parte della pratica clinica. Il secondo fronte è la validazione, che deve riguardare sia i modelli di intelligenza artificiale sia i dati sintetici.

dati sintetici

Matteo Della Porta
Un medico può prescrivere un farmaco che non conosce perché sa che questo è stato ampiamente testato ed è stato approvato dall’autorità sanitaria. Idealmente, anche l’AI applicata al medicale dovrebbe essere validata in maniera altrettanto rigorosa. L’approccio di Train è quindi sviluppare procedure di validazione per l’AI, che possano dare la stessa sicurezza di quelle usate per i farmaci e le terapie. Poter affermare che un modello di AI è stato validato e certificato per quanto riguarda il suo valore clinico è estremamente importante per creare fiducia nella comunità dei medici e dei pazienti.