Forensic Facial Recognition and neural network for improvement

Riconoscimento facciale e reti neurali per migliorare le immagini in ambito forense

Raffaella Aghemo
5 min readApr 18, 2024

--

a cura di Raffaella Aghemo

Siamo alle battute finali dell’approvazione definitiva del primo disegno legislativo mondiale sull’Intelligenza Artificiale, l’Artificial Intelligence Act europeo, che cercherà di bilanciare il rispetto dell’uomo e della democrazia con una adeguata ma sicura spinta verso l’innovazione tecnologica.

Sappiamo anche che in questo percorso, totalmente e orizzontalmente orientato al rischio, una delle preoccupazioni maggiori si concentrerà sui sistemi di riconoscimento facciale, che sebbene vietati in tempo reale, possono comunque essere legittimati in post-remoto da un’autorità giudiziaria o ammnistrativa.

Due ricercatori della Università della California, a Berkeley, Justin Norman e Hany Farid hanno stilato uno studio, trascritto in un paper, dal titolo “An Investigation into the Impact of AI-Powered Image Enhancement on Forensic Facial Recognition”, al fine di indagare se e quando i progressi nel miglioramento e nel ripristino delle immagini su base neurale, possano essere utilizzati per ripristinare immagini degradate, ma preservando l’identità facciale, nell’utilizzo per il riconoscimento facciale forense. Abbiamo letto di una serie di casi di confusione di persone e di errori nel riconoscimento facciale, nel corso di indagini penali, pertanto lo studio va proprio a concentrarsi su metodi e soprattutto errori, in cui possono incorrere questi sistemi algoritmici.

Si legge nell’introduzione: «Sebbene il riconoscimento facciale automatico affondi le sue radici nella metà degli anni ’60, solo di recente l’accuratezza del riconoscimento facciale ha raggiunto livelli che ne consentono un impiego credibile in contesti forensi del mondo reale; anche se, non senza preoccupazioni, riguardo alle violazioni dei diritti umani, privacy e pregiudizio. È stato affermato che il riconoscimento facciale automatico è altrettanto accurato o più accurato del riconoscimento a livello umano.»

I primi esperimenti di cui si parla, effettivamente risalgono agli anni tra il 1964 e il 1966, quando Woodrow W. Bledsoe, insieme a Helen Chan e Charles Bisson della Panoramica Research, cominciò a fare ricerche e a studiare la programmazione dei computer per il riconoscimento dei volti umani; ma pochissima documentazione è stata trovata, in quanto fu una ricerca finanziata da un’agenzia di intelligence anonima. Bledsoe spiegò, in questi termini, le difficoltà riscontrate in questa ricerca: «Questo problema di riconoscimento è reso difficile dalla grande variabilità nella rotazione e nell’inclinazione della testa, nell’intensità e nell’angolo della luce, nell’espressione facciale, nell’invecchiamento, ecc. Alcuni altri tentativi di riconoscimento facciale tramite macchina hanno consentito una variabilità minima o nulla in queste quantità. Eppure il metodo di correlazione (o pattern match) dei dati ottici non elaborati, spesso utilizzato da alcuni ricercatori, fallirà sicuramente nei casi in cui la variabilità è grande. In particolare, la correlazione è molto bassa tra due immagini della stessa persona con due diverse rotazioni della testa

Questi progressi nel riconoscimento facciale automatico sono stati in gran parte alimentati dai progressi nell’apprendimento automatico, insieme all’accesso a set di dati sempre più grandi e diversificati, alimentando vieppiù, una rivoluzione nel miglioramento delle immagini in cui immagini rumorose, a bassa risoluzione o sfocate possono essere apparentemente miracolosamente ripristinate ai loro originali ad alta risoluzione e alta qualità.

Ma è davvero così?

Questo studio si avvale di due set facciali ampi e diversificati, due popolari sistemi di riconoscimento facciale ad apprendimento profondo e 12 diverse tecniche di miglioramento delle immagini basate su GAN e tecniche di diffusione.

Per il miglioramento del viso, due tipici miglioramenti dell’immagine che un analista forense potrebbe utilizzare, sono: o super-risoluzione in cui un’immagine a bassa risoluzione viene campionata a una risoluzione più elevata, ripristinando i dettagli dell’immagine originale; oppure deblurring, in cui la sfocatura ottica o di movimento viene rimossa da un’immagine.

La prima, la super-risoluzione, utilizza diverse tecniche basate sui neuroni; tecniche che abbracciano una gamma di differenti meccanismi sottostanti, dalle reti generative avversarie (GAN) alle reti neurali convoluzionali (CNN), ai trasformatori e alle combinazioni di tutti e tre, cosi come la seconda, pur con approcci differenti.

Nel primo caso, tra le tecniche utilizzate, piuttosto efficaci sono i LDM, Latent Diffusion Models, in una varietà di attività di restauro delle immagini. L’approccio generale dei modelli di immagini di diffusione è quello di sfruttare gli autocodificatori di denoising per segmentare la formazione dell’immagine in passaggi sequenziali e progressivi. Questo processo, tuttavia, si basa sull’elaborazione delle immagini direttamente nello spazio dei pixel, il che è costoso dal punto di vista computazionale e richiede un’enorme infrastruttura informatica, generalmente disponibile solo a poche organizzazioni dotate di risorse adeguate. Per ovviare a questa lacuna sono stati introdotti modelli di diffusione latente (LDM), che operano in uno spazio latente a dimensione inferiore, che supporta la capacità di addestrare i modelli di ripristino dell’immagine su risorse informatiche più standard e accessibili.

Si può utilizzare anche la tecnica di ripristino del volto cieco — CodeFormer — che è stata impiegata per due compiti principali: ridurre o rimuovere il degrado percepibile dell’immagine e abbinare le caratteristiche dell’immagine degradata alla qualità e allo stile dell’immagine desiderati. Questa tecnica utilizza un’architettura basata su Transformer per creare una rappresentazione di immagini di bassa qualità contestualizzate specificamente per i volti umani.

Nel secondo caso, quello del deblurring, o de-sfocatura, ci si avvale di tecniche atte a creare uno stadio finale che funzioni direttamente sulla risoluzione dell’immagine originale, per catturare dettagli spaziali a grana fine.

Al di là dei dettagli più squisitamente tecnici, (che potete trovare nel paper al link di seguito: https://farid.berkeley.edu/downloads/publications/cvprw24b.pdf), lo studio si è avvalso di due set di dati per le valutazioni: il primo set di dati del mondo reale è derivato dal set di dati CASIA-Webface, composto da 491.414 immagini derivate da 10.575 identità. Queste immagini sono di varie dimensioni, qualità, posa, abbigliamento del soggetto e ambiente. A causa della qualità iniziale del set di dati, è stata necessaria una certa cura manuale, inclusa la rimozione di immagini duplicate e la rimozione di immagini etichettate in modo errato. Poi, è stato utilizzato un secondo set di dati generato sinteticamente, in quanto offre un controllo più dettagliato sulle differenze nell’aspetto di ciascun soggetto all’interno e tra le identità, utilizzando una combinazione di rendering classico e sintesi generativa per creare volti umani fotorealistici. Tutte le immagini sono renderizzate con una risoluzione di 512×512 pixel.

Negli ultimi dieci anni, il miglioramento dei modelli di riconoscimento facciale per le attività di identificazione forense è stato notevole. Tuttavia, gran parte della valutazione delle prestazioni di tali modelli è stata condotta in ambienti di laboratorio controllati che non necessariamente replicano la diversità dei dati e la difficoltà dei compiti inerenti agli ambienti forensi del mondo reale.

Concludendo,

dopo che gli autori hanno esplorato l’impatto della super-risoluzione e della deblurring ottica/movimento, sul riconoscimento facciale forense, hanno rilevato che, in determinate condizioni e con la scelta appropriata del modello di miglioramento, questi strumenti possono essere una risorsa. Allo stesso tempo, però, questo tipo di miglioramento dell’immagine non è una panacea e occorre prestare attenzione quando si utilizzano queste tecniche per comprenderne attentamente l’efficacia in presenza di diversi livelli di degrado dell’immagine, il tipo di degrado, la natura del miglioramento desiderato e il modello di riconoscimento facciale sottostante. D’altro canto, i casi di fallimento osservati, risultano preoccupanti. Ciò che è particolarmente preoccupante riguardo a queste allucinazioni è che non esiste un modo ovvio per determinare che tale allucinazione si sia verificata soltanto guardando l’immagine ingrandita. Saranno necessarie ulteriori analisi per valutare l’efficacia di altre forme di miglioramento dell’immagine sotto forma, ad esempio, di de-noising e in-painting, e l’interazione tra diverse forme di degrado dell’immagine.

Riproduzione Riservata

Avv. Raffaella Aghemo

--

--

Raffaella Aghemo

Innovative Lawyer and consultant for AI and blockchain, IP, copyright, communication, likes movies and books, writes legal features and books reviews