Report sui dispositivi medici che fanno uso dell’Intelligenza Artificiale, i cosiddetti AI-SaMD, a cura dell’Organizzazione Mondiale della Sanità

7 min readDec 16, 2021

a cura di Raffaella Aghemo

La World Health Organization ha rilasciato un lungo ma interessantissimo Report relativo alle “GENERAZIONE DI EVIDENZE PER DISPOSITIVI MEDICI BASATI SULL’INTELLIGENZA ARTIFICIALE: UN QUADRO PER LA FORMAZIONE, LA CONVALIDA E LA VALUTAZIONE”.

«Per i paesi che devono ancora ottenere una copertura sanitaria universale, la tecnologia basata sui dati svolgerà un ruolo fondamentale nel prossimo decennio. Le attuali applicazioni di intelligenza artificiale, machine learning e deep learning includono l’uso di strumenti di supporto alle decisioni cliniche, soluzioni diagnostiche e di ottimizzazione del flusso di lavoro. L’intelligenza artificiale viene anche utilizzata per migliorare la ricerca sanitaria e lo sviluppo di farmaci e per assistere l’implementazione di diversi interventi di sanità pubblica, come la sorveglianza delle malattie, la risposta alle epidemie e la gestione dei sistemi sanitari.»

«Questo framework funge da documento di base e considera i requisiti minimi per la generazione di prove cliniche in tre fasi:

1) Sviluppo del software (I capitoli da 2 a 6 trattano considerazioni sulla generazione di prove e standard minimi per lo sviluppo di AI-SaMD — Software as a Medical Device)

2) Convalida e reporting del software (I capitoli da 7 a 10 trattano la generazione di prove durante i test AI-SaMD, compresa la gestione dei dati e la segnalazione delle prove) e

3) Implementazione e sorveglianza post-mercato (I capitoli da 11 a 14 trattano considerazioni sulla generazione di prove per l’implementazione, l’usabilità e la sorveglianza post-market.

Utilizza lo screening del cancro della cervice uterina come caso d’uso per dimostrare le considerazioni sulla generazione di prove. Questo caso d’uso è appropriato, dato l’enorme compito che ci aspetta per eliminare il cancro della cervice uterina, che rimane uno dei tumori e delle cause di morte per cancro più comuni nelle donne in tutto il mondo, anche se è una malattia prevenibile»

Cosa differenzia il caso d’uso dal caso di studio ce lo dice il Report qualche pagina avanti: «La differenza tra casi studio e casi d’uso è la differenza tra ciò che è reale e ciò che è possibile. I casi di studio sono resoconti di vita reale, retrospettivi di progetti reali che hai consegnato a clienti reali. I casi d’uso sono esempi di come un prodotto o servizio potrebbe essere distribuito. Quindi, in questo senso, i casi di studio raccontano le storie di soluzioni provate e testate da clienti reali, mentre i casi d’uso presentano esempi di soluzioni a possibili problemi.»

Pertanto, scopo principale di questo documento è quello, oltre che di fornire un contesto sanitario globale, anche di formulare un consenso per guidare la convalida, la generazione di prove e la segnalazione lungo l’intero ciclo di vita del prodotto, dallo sviluppo alla sorveglianza post-mercato, in un contesto sanitario globale. Poiché i processi che coinvolgono l’Intelligenza Artificiale richiedono ricerca e spesso sperimentazioni ex post, se questo è agevolato nei paesi ad alto reddito, può e diventa più complicato per i LMIC, cioè i paesi a medio e basso reddito, che invece devono diventare il primario obiettivo di miglioramento della ricerca per una migliore salute globale! Ne deriva una affermazione di sostanza: «Tuttavia, molte sfide devono essere affrontate prima di un’adozione diffusa. Gli sviluppatori potrebbero dover essere allettati attraverso incentivi economici e azioni normative per costruire o almeno convalidare le loro soluzioni in contesti LMIC, utilizzando dati adeguati alle popolazioni locali. Nel campo della dermatologia, gli studi di convalida pubblicati per il rilevamento automatico del cancro generalmente utilizzano dati provenienti principalmente da pazienti caucasici bianchi e sono difficili da generalizzare a popolazioni di colore e altre minoranze (scala Fitzpatrick V-VI). I rapporti sulla generazione di prove per tutti i nuovi strumenti di intelligenza artificiale devono quindi includere diversi gruppi etnici, razziali, di età e di sesso, al fine di garantire un uso responsabile dell’IA in medicina, in particolare nel contesto della salute globale.»

Cos’è la scala Fitzpatrick? La scala Fitzpatrick (nota anche come Fitzpatrick skin typing test o Fitzpatrick phototype scale) è stata sviluppata nel 1975 dal dermatologo di Harvard Medical School Thomas Fitzpatrick per classificare la carnagione di una persona in relazione alla tolleranza alla luce solare. Oggi è utilizzato da molte professioni sanitarie per determinare in che modo un paziente risponderà ai trattamenti del viso, e per determinare la probabilità di una persona di contrarre il cancro alla pelle (V-VI pelli molto scure).

Nell’imaging medicale, «Sebbene la maggior parte delle prove pubblicate sia retrospettiva, sono in corso studi in corso di convalida esterna e valutazioni prospettiche. Una revisione sistematica degli studi pubblicati nel 2019 ha rilevato che pochi studi presentavano una convalida esterna o confrontavano le prestazioni dell’IA con quelle degli operatori sanitari che utilizzavano lo stesso campione. Questa revisione ha anche rilevato che in questi studi è prevalente una scarsa segnalazione delle prove e limita l’interpretazione affidabile delle misure di performance».

Come in ogni processo che abbisogna di prove, qui si passa attraverso risposte a domande quali usabilità ed efficacia dello strumento diagnostico e dei risultati che riesce a produrre. La valutazione di un AI-SaMD per aiutare nella diagnosi del cancro cervicale dovrebbe tentare di attribuire una serie di risultati al dispositivo nel tempo. Ciò può andare dalla valutazione della facilità con cui gli utenti finali possono interagire con il sistema (usabilità), alla misurazione degli impatti sulla salute (efficacia) e al calcolo dell’accessibilità economica del sistema (valutazione economico/finanziaria). Nelle fasi successive della maturità dello sviluppo, sorgeranno domande di valutazione su come il sistema e i suoi flussi di dati saranno integrati all’interno della più ampia architettura del sistema sanitario e dell’ambiente politico, con l’obiettivo finale di raggiungere e sostenere il suo utilizzo su scala nazionale (ricerca di attuazione).

Gli studi di fattibilità mirano a valutare se l’AI-SaMD funzioni come previsto in un ambiente controllato e comportano la formazione e la convalida interna dell’algoritmo.

La fase successiva prevede gli studi di capacità: il test dell’accuratezza del modello in un ambiente controllato che simula le condizioni del mondo reale e l’applicazione a un set di dati indipendente da quello utilizzato per l’addestramento del modello. Tali studi mirano a dimostrare che l’algoritmo funziona come previsto e a misurarne l’accuratezza, l’affidabilità e la sicurezza.

Gli studi di efficacia mirano a confermare che le prestazioni reali dell’algoritmo corrispondano alle sue prestazioni nell’ambiente di test.

Infine si verifica la durabilità (follow-up clinico post-marketing) Questa fase comprende la generazione di dati clinici per tenere traccia delle prestazioni in corso, da utilizzare nella valutazione e nel monitoraggio. L’IMDRF, il Forum internazionale dei regolatori dispositivi medici, raccomanda ai produttori di incorporare sistemi di monitoraggio o auditing all’interno del loro prodotto per rilevare, recuperare e segnalare automaticamente gli errori.

Si ribadisce più volte poi l’importanza di una corretta governance dei dati e di una corretta supervisione degli stessi per evitare distorsioni di bias che non rendano equa la distribuzione sanitaria soprattutto nei paesi a basso reddito.

I problemi di gestione della suddivisione del set di dati includono:

• La suddivisione del set di dati deve essere “pulita” a livello di pazienti/partecipanti, ad esempio tutte le immagini dello stesso paziente devono essere nello stesso set

• Rilevamento della somiglianza delle immagini al fine di identificare lesioni duplicate, tenendo conto del fatto che l’unione di set di dati provenienti da fonti diverse potrebbe comportare una sovrapposizione a livello di paziente

• Dimensioni del campione del set di dati.

L’obiettivo di un’indagine clinica o di qualsiasi studio sistematico che coinvolga AI-SaMD è valutare la sicurezza, le prestazioni cliniche e l’efficacia di un dispositivo medico per una particolare indicazione o uso previsto, allineandosi anche con i Good Machine Learning Principles della FDA, che sono stati stabiliti in un documento di discussione del 2019, che è stato aggiornato nel 2021. La Figura sotto, illustra l’approccio del “ciclo di vita totale del prodotto” del documento allo sviluppo e alla convalida di tali dispositivi, in base al quale i requisiti essenziali per la generazione di prove vengono raggiunti in ogni fase del ciclo di vita dell’AI-SaMD. L’approccio evidenzia la relazione tra monitoraggio post-distribuzione, monitoraggio delle prestazioni nel mondo reale e riqualificazione dell’algoritmo nel caso in cui gli obiettivi di sicurezza e prestazioni non vengano raggiunti. Alla base di questa relazione tra lo sviluppo dell’algoritmo, lo sviluppo del dispositivo e le modifiche c’è una cultura delle buone pratiche che consente la segnalazione chiara e trasparente delle prove da questi dispositivi.

Nell’Unione Europea (UE), la valutazione clinica è una responsabilità dello sviluppatore AI-SaMD. Come parte dei requisiti normativi della Commissione Europea che consentono a un prodotto di mostrare la marcatura CE, il rapporto di valutazione clinica (CER) è richiesto come parte della documentazione tecnica di un dispositivo medico. Un rapporto di valutazione della valutazione clinica (CEAR) viene utilizzato da un Organismo Notificato (l’ente responsabile della valutazione dei dispositivi medici e della diagnostica all’interno dell’UE) per documentare le sue conclusioni sulle prove cliniche presentate dal produttore nel CER e sulla relativa valutazione clinica che ha condotto.

Nella Sezione III si dà risalto al processo post-market, proprio per stabilirne ingresso e parametri: la fiducia degli utenti, e quindi la generazione di prove di successo durante studi prospettici del mondo reale, può essere migliorata con:

• Chiare istruzioni per l’uso (compresa l’etichettatura)

• Un’interfaccia utente ben progettata

• Formazione ed esperienza nell’uso dell’AI-SaMD

• Studi condotti in modo prospettico

• Studi di convalida completamente riportati.

La valutazione delle prestazioni del modello negli studi di efficacia, di solito, richiede confronti con una “linea di base umana” per il contesto. Ad esempio, gli AI-SaMD per attività diagnostiche possono trarre vantaggio dal confronto dell’accuratezza del modello con quella dei selezionatori umani. Occorrerà quindi convalidare l’esperienza del personale medico preso a test di confronto e al contempo, valutare l’affidabilità dei parametri oltre che del follow-up (compreso se il follow-up sia stato sufficientemente lungo per far verificare gli esiti e se il follow-up sia stato abbastanza frequente da rilevare effetti collaterali e complicanze temporanee) dei risultati ottenuti.

Infine occorrerà valutare anche le credenziali etiche, legali e operative dei singoli fornitori, acquirenti e implementatori, al fine di garantire evidenza di sicurezza, prestazioni nel contesto clinico, e impatto clinico relativo alla sua destinazione d’uso.

Riproduzione Riservata

Avv. Raffaella Aghemo

Report sui dispositivi medici che fanno uso dell’Intelligenza Artificiale, i cosiddetti AI-SaMD, a cura dell’Organizzazione Mondiale della Sanità

a cura di Raffaella Aghemo

Written by Raffaella Aghemo