giovedì, Marzo 28, 2024
Uncategorized

Anonimizzazione del dato: le tecniche possibili

a cura di Ramona Cavalli, dottoranda di ricerca in Scienze Giuridiche e Politiche presso l’Università G. Marconi

 

Sommario: 1. Le tecniche di anonimizzazione del dato. – a) La pseudonimizzazione. – b) La cifratura o crittografia. – c) L’anonimizzazione. – 2. Gli studi internazionali sulla tecnica della anonimizzazione dei dati personali.

 

1) Le tecniche di anonimizzazione del dato.

La direttiva 95/46/CE, nel considerando 26, è uno dei primi atti giuridici dell’UE, che fornisce una definizione concettuale di anonimizzazione[1], considerata come la fase successiva alla raccolta e al trattamento dei dati personali in conformità alla legislazione applicabile in materia di conservazione dei dati in un formato identificabile.

In particolare, nel considerando 26 la direttiva si riferisce alla tecnica dell’anonimizzazione, ma senza descriverne il processo, al fine di escludere i dati resi anonimi dal campo di applicazione della legislazione in materia di protezione dei dati. Più precisamente, i dati devono essere trattati in maniera tale che da non consentire l’identificazione della persona interessata mediante “l’insieme” dei mezzi che “possono” essere “ragionevolmente” utilizzati. Si fa riferimento con rigore ai codici di condotta come strumento per stabilire possibili meccanismi di anonimizzazione e alla conservazione in una forma tale da “rendere impossibile” in modo irreversibile l’identificazione della persona interessata.

In seguito anche la direttiva relativa alla vita privata e alle comunicazioni elettroniche (direttiva 2002/58/CE) ha fatto riferimento alla “anonimizzazione” e ai “dati anonimi” in un contesto molto simile[2], in modo tale che l’anonimizzazione del dato personale potesse comportare l’impossibilità del trattamento del dato stesso. [3]

In primo luogo occorre ricordare che per superare la prova di compatibilità, il trattamento deve essere conforme agli orientamenti forniti dal Gruppo di lavoro Art. 29 nel parere n. 3/2013 sulla limitazione della finalità[4]. Pertanto, la base giuridica per l’anonimizzazione può essere individuata in ciascuna delle motivazioni citate all’articolo 7 della direttiva 95/46/CE, tra cui l’interesse legittimo del responsabile del trattamento, a condizione che siano soddisfatti anche i requisiti di qualità dei dati di cui all’articolo 6 della stessa direttiva, oltre a considerare le circostanze specifiche e i fattori citati nel parere del Gruppo di lavoro sulla limitazione della finalità[5].

Tuttavia, in generale, qualsiasi misura tecnico-organizzativa tesa a rendere “anonimi” i dati contiene il rischio intrinseco residuo di re-identificazione. In tal senso vanno citate anche le disposizioni contenute negli articoli  6, paragrafo 1, lettera e), e 9, paragrafo 1, della direttiva relativa alla vita privata e alle comunicazioni elettroniche, in quanto dimostrano la necessità di conservare i dati personali “in modo da consentire l’identificazione” per un arco di tempo non superiore a quello necessario al conseguimento delle finalità per le quali sono stati rilevati o successivamente trattati.

Pertanto, se il responsabile del trattamento desidera conservare tali dati personali una volta conseguite le finalità del trattamento originario o successivo, dovrebbero essere utilizzate tecniche di anonimizzazione in modo da impedire irreversibilmente l’identificazione[6].

Merita ricordare che il dato personale, secondo quanto già affermato dal Parere n. 4/2007 del Gruppo ex art. 29[7], ha una nozione omnicomprensiva in conformità all’art. 8 della Carta di Nizza, tanto sotto il profilo della natura potendo includere informazioni soggettive e oggettive nonché vere o false, quanto con riferimento al suo contenuto ricomprendendo sia i dati generali sia i dati sensibili, nonché avendo riguardo al formato non rilevando la forma cartacea, alfabetica, numerica, grafica, fotografica, acustica ovvero l’eventuale conservazione mediante codice binario[8].

Peraltro, secondo il successivo Parere n. 13/2011 del medesimo Gruppo ex art. 29, la nozione di dato personale è talmente ampia che, certamente, all’interno di essa si può ricomprendere anche il c.d. MAC Address (Media Access Control Address), ossia una sequenza numerica che identifica il produttore, il dispositivo e da cui è possibile desumere, finanche, l’acquirente o l’utilizzatore dell’apparto [9].

Inoltre, nel 2016 la Corte di Giustizia dell’Unione europea, nelle more del procedimento di approvazione ed entrata in vigore del nuovo Regolamento, ha affermato che costituisce dato personale (ai sensi dell’art. 2, lett. a), della Dir. n. 95/46/CE) l’indirizzo IP dinamico, ossia quello provvisorio che viene assegnato a ogni connessione internet e cambia alle eventuali connessioni successive, qualora il fornitore di servizi media on line disponga di mezzi che possono essere ragionevolmente utilizzati per identificare, anche con l’aiuto di altri soggetti (ad esempio, l’autorità competente ed il fornitore di accesso a internet), la persona interessata.[10]

Successivamente, con il Regolamento UE 2016/679  (di seguito “GDPR”) l’ampliamento della nozione di dato personale di cui all’art. 4, attribuito solamente alle persone fisiche, consente ora “di riferirsi al dato nella maniera più inclusiva ed onnicomprensiva possibile”, con la conseguenza, tuttavia, che una siffatta dilatazione paradossalmente “aumenta, anziché diminuire, le difficoltà di effettiva tutela in tutti i contesti di emersione delle informazioni personali”[11].

Tra le varie tematiche affrontate dal GDPR emerge quella del diritto alla protezione dei dati personali, valutato innanzitutto dal considerando n. 4 non come una prerogativa assoluta, bensì “alla luce della sua funzione sociale e va contemperato con altri diritti fondamentali, in ottemperanza al principio di proporzionalità”[12]. Successivamente, da un lato l’art. 22 prevede l’obbligo per il titolare del trattamento dei dati personali di adottare tutte le misure necessarie e indispensabili per garantire la correttezza e la liceità del trattamento[13], mentre dall’altro l’art. 32, comma 1, contempla il ruolo del titolare e del responsabile del trattamento che hanno il dovere di attuare “misure tecniche e organizzative adeguate per garantire un livello di sicurezza adeguato al rischio”.

Tale valutazione, denominata Data Protection Impact Assessment (DPIA), è un processo attraverso il quale i responsabili e i titolari del trattamento devono valutare l’eventuale rischio derivante dal trattamento dei dati che comporta l’identificazione dell’utente e, conseguentemente, individuare le modalità attraverso le quali attenuarlo o evitarlo[14].  Infatti il GDPR prevede all’art. 4, n. 12 la “violazione di dati personali”, considerata come la violazione di sicurezza che comporta accidentalmente o in modo illecito, la distruzione, la perdita, la modifica, la divulgazione non autorizzata o l’accesso ai dati personali trasmessi, conservati o comunque trattati[15].

In tale contesto proprio l’art. 32, lett. a) del GDPR prevede, tra l’altro, due diverse soluzioni tecniche: la pseudonimizzazione e cifratura dei dati.

a) La pseudonimizzazione.

La prima è un processo che, secondo quanto indicato nel considerando n. 26 del GDPR e nell’art. 4, punto 5 dello stesso, consente di trattare i dati in maniera tale da non poterli più attribuire ad un utente, in particolare, senza l’accostamento di informazioni aggiuntive che devono, allo stesso tempo, non essere attribuite “ad una persona fisica identificata o identificabile[16].

Anche l’art. 25 del GDPR prevede, in merito, che il titolare del trattamento debba attuare misure tecniche atte a garantire la protezione dei dati personali degli utenti tenendo conto della natura, dei costi, dell’ambito di applicazione, del contesto e delle finalità del trattamento in conformità al principio della privacy by design[17].

In concreto, con questa misura alcuni identificatori vengono sostituiti con pseudonimi (o token, letteralmente “simbolo” o “simbolico”), cioè dati realistici, ma non veritieri. I dati originali, vengono conservati in un database separato costituito da una tabella delle corrispondenze tra dati originali e gli pseudonimi utilizzati[18]. Tale sistema permette di re-identificare le persone fisiche, in quanto il titolare, o il responsabile del trattamento, possiede le “informazioni aggiuntive” che consentono in modo reversibile di risalire all’identità degli interessati.

I dati pseudonimizzati non possono essere attribuiti ad un individuo senza utilizzare le predette “informazioni aggiuntive”, che sono rappresentate dalla tabella delle corrispondenze tra pseudonimi e dati originali. In particolare, le “informazioni aggiuntive” devono essere conservate in un database separato e adeguatamente protetto. Infatti, in questo modo anche se il set di dati pseudonimizzati venisse compromesso, non sarà comunque possibile risalire ai dati originali.

La pseudonimizzazione riduce il rischio di identificazione diretta degli individui, riducendo la correlabilità di un insieme di dati all’identità originaria di una persona interessata, ma non produce dati anonimi[19]. Quindi, i dati pseudonimizzati non sono dati anonimizzati, bensì sono dati personali che rientrano nella disciplina del GDPR[20].

La possibilità di risalire ai dati originali avendo comunque la possibilità di divulgare i dati pseudonimizzati senza rischio di re-identificazione, costituisce il principale vantaggio della tecnica della pseudonimizzazione[21].

Esistono, altresì, diversi metodi per generare pseudonimi, tra i quali l’utilizzo delle funzioni di hash (letteralmente “sminuzzare”), che calcolano, a partire da un insieme di caratteri di lunghezza arbitraria, una stringa alfanumerica di lunghezza determinata[22]. Per quanto l’hash sia una funzione non invertibile, dunque irreversibile, l’utilizzo di una tabella hash (rectius, tabella delle corrispondenze) rende questa tecnica un metodo utile a servizio della pseudonimizzazione, perchè la stringa alfanumerica risultante dalla tabella viene associata ai dati originali rendendo possibile la re-identificazione degli interessati.

Le tecniche di pseudonimizzazione più usate sono le seguenti:  crittografia con chiave segreta: in questo caso, chi conosce la chiave può facilmente risalire all’identificazione di ogni persona interessata decrittando l’insieme di dati, in quanto i dati personali sono ancora contenuti all’interno dell’insieme di dati, pur se in forma crittografata. Ipotizzando di applicare un sistema di crittografia avanzato, la decrittazione può avvenire solamente se si è a conoscenza della chiave; funzione di hash: corrisponde a una funzione che, a partire da un’immissione di dati di qualsiasi dimensione (l’immissione potrebbe essere costituita da un unico attributo o da un insieme di attributi), restituisce comunque un’emissione di dimensione fissa; tale funzione non può essere invertita, vale a dire che non esiste più il rischio di inversione associato alla crittografia.

Tuttavia, se l’intervallo di valori di immissione relativi alla funzione di hash è noto, la funzione stessa consente di riprodurli al fine di desumere il valore corretto associato a un dato specifico. Ad esempio, se un insieme di dati è stato pseudonimizzato effettuando l’hashing del numero nazionale di identificazione, lo stesso può essere estrapolato semplicemente effettuando l’hashing di tutti i possibili valori di immissione e raffrontando il risultato con i valori contenuti nell’insieme di dati. Le funzioni di hash sono solitamente progettate in modo da procedere con calcoli rapidi e sono soggette ad attacchi brutali[23].

Si possono inoltre creare tabelle precalcolate per consentire l’inversione in blocco di un insieme consistente di valori hash. Il ricorso a una funzione di hash con salt (che prevede l’aggiunta di un valore casuale, noto come “salt”, all’attributo oggetto di hashing) può ridurre la probabilità di estrapolare il valore di immissione, permanendo tuttavia la possibilità di calcolare con mezzi ragionevolmente utilizzabili il valore dell’attributo originario nascosto dietro al risultato di una funzione di hash con salt[24]; funzione di hash cifrato con chiave memorizzata: corrisponde a una funzione di hash particolare che utilizza una chiave segreta quale immissione aggiuntiva (la differenza rispetto alla funzione di hash con salt è che il salt abitualmente non è segreto).

Un responsabile del trattamento può riprodurre la funzione sull’attributo utilizzando la chiave segreta, ma un intruso avrebbe molte più difficoltà a riprodurre la funzione senza conoscere la chiave, in quanto il numero di possibilità da esaminare è sufficientemente elevato da risultare impraticabile;  crittografia deterministica o funzione di hash cifrato con cancellazione della chiave: questa tecnica può essere equiparata alla selezione di un numero casuale quale pseudonimo di ciascun attributo contenuto nell’insieme di dati seguita dalla cancellazione della tabella delle corrispondenze.

Tale soluzione consente[25] di ridurre il rischio di correlabilità tra i dati personali contenuti nell’insieme di dati e quelli relativi alla medesima persona presenti in un altro insieme di dati in cui viene utilizzato uno pseudonimo diverso. Se si ricorre a un algoritmo particolarmente avanzato, un intruso ha notevoli difficoltà computazionali a cercare di decriptare o riprodurre la funzione, in quanto dovrebbe provare tutte le chiavi possibili, visto che la chiave non è disponibile;  tokenizzazione: questa tecnica si applica solitamente (anche se non unicamente) nel settore finanziario per sostituire i numeri delle carte d’identità con valori che presentano un’utilità ridotta per un eventuale intruso. Si tratta di una tecnica derivata dalle precedenti in quanto si basa tipicamente sull’applicazione di un meccanismo di crittografia univoca o sull’assegnazione, tramite una funzione indicizzata, di un numero sequenziale o di un numero generato casualmente che non deriva matematicamente dai dati originali.

Con questa tecnica permane la possibilità di individuare i dati delle persone, in quanto queste ultime sono ancora identificate da un attributo unico che è il risultato della funzione di pseudonimizzazione (= l’attributo pseudonimizzato). Inoltre, la correlabilità rimane un’operazione di semplice effettuazione tra dati che utilizzano lo stesso attributo pseudonimizzato per fare riferimento alla stessa persona, perché anche qualora per la stessa persona interessata vengano utilizzati diversi attributi pseudonimizzati, la correlabilità potrebbe essere comunque effettuata mediante altri attributi. Solamente nel caso in cui nessun altro attributo contenuto nell’insieme di dati  possa essere utilizzato per identificare la persona interessata e se è stato eliminato ogni legame tra l’attributo originario e quello pseudonimizzato (compresa la cancellazione dei dati originali) non sussiste alcun riferimento incrociato ovvio tra due insiemi di dati che utilizzano attributi pseudonimizzati diversi[26].  Infine, “gli attacchi all’identità reale di una persona interessata tramite deduzione sono possibili all’interno dell’insieme di dati o tra diversi insiemi di dati che utilizzano lo stesso attributo pseudonimizzato per una persona, oppure se gli pseudonimi sono molto evidenti e non mascherano adeguatamente l’identità originale della persona interessata[27]”.

b) La cifratura o crittografia.

Come già previsto nel Considerando n. 28 del GDPR, i titolari e i responsabili del trattamento possono scegliere altre misure di protezione dei dati, ulteriori rispetto alla pseudonimizzazione, tra cui la cifratura o crittografia dei dati, ai sensi dell’art.  32, comma 1, lett. a) del GDPR[28].

Si tratta di una misura tecnica di sicurezza che, attraverso un apposito algoritmo matematico, rende illeggibili i dati personali a chiunque non abbia l’autorizzazione a visionarli[29], proteggendo i dati da trattamenti non autorizzati o illegali. Per accedere ai dati personali crittografati è necessario essere in possesso di una chiave di decriptazione, che rende la crittografia unoperazione reversibile[30].

In tal senso si applica la disciplina del GDPR, perchè i dati cifrati sono dati personali in quanto l’operazione di decifratura li rende riconducibili agli interessati, permettendone l’identificazione.

Da quanto sopra emerge che, mentre nella pseudonimizzazione i dati sono potenzialmente visionabili da chiunque, in quanto vengono resi disponibili per determinate finalità come la ricerca, e dunque oscurati solo in parte, invece la crittografia ha lo scopo di oscurare completamente i dati in modo che solo specifici soggetti autorizzati possano visionarli.

Esistono, inoltre, due metodi di crittografia, simmetrica e asimmetrica. Nella prima le parti utilizzano un’unica chiave per cifrare e successivamente decifrare i dati, e dunque il livello di sicurezza dei dati crittografati dipende dalla gestione, conservazione e trasporto della chiave, che spesso non può essere trasmessa in totale sicurezza[31]. Nella seconda le parti utilizzano due chiavi, una pubblica ed una privata; la prima cifra i dati e viene, invece, distribuita, la seconda decifra i dati e viene mantenuta segreta[32].

La più comune implementazione di questa tecnica crittografica è la End-to-End Encryptio[33] (E2EE, letteralmente, crittografia da un estremo all’altro), conosciuta prevalentemente grazie a WhatsApp, che l’ha implementata nel proprio servizio di messaggistica istantanea nel 2016[34].

c) L’anonimizzazione.

Per anonimizzazione del dato personale si intende quella tecnica con cui le persone fisiche interessate non possano più essere identificate in nessun modo, determinando una de-identificazione irreversibile[35].  Requisito fondamentale è che i dati personali siano stati inizialmente raccolti, trattati e conservati in conformità alla normativa vigente[36], con riferimento ai principi applicabili al trattamento e alla liceità dello stesso, ai sensi degli artt. 5 e 6 del GDPR.

Se l’anonimizzazione è stata eseguita correttamente, i dati oggetto dell’operazione non sono più classificati come dati personali[37], e quindi non rientrano nella dimensione applicativa del GDPR come affermato dal Considerando n. 26 del GDPR.  Peraltro, i dati anonimizzati sono compresi fra gli esempi specifici di dati non personali”, così come definito nel Considerando 9 del “Regolamento UE 2018/1807 relativo alla libera circolazione dei dati non personali nell’Unione Europea”[38].

L’utilità della anonimizzazione è da ravvisare nella condivisione di set di dati, garantendo sia la privacy delle persone fisiche[39] che la possibilità di sfruttare il predetto set di dati per analisi e ricerche statistiche. L’anonimizzazione si può realizzare tramite la rimozione, la sostituzione, la distorsione, la generalizzazione o l’aggregazione degli identificatori diretti, come il nome completo o altre caratteristiche rilevanti della persona fisica, e indiretti, cioè attributi che combinati con altre informazioni disponibili rendono identificabile una persona, come per esempio una combinazione di occupazione, stipendio ed età[40].

I rischi essenziali connessi alla tecnica della anonimizzazione sono: l’individuazione, che corrisponde alla possibilità di isolare alcuni o tutti i dati che identificano una persona all’interno dell’insieme di dati; la correlabilità, ossia la possibilità di correlare almeno due dati concernenti la medesima persona interessata, o un gruppo di persone interessate, nella medesima banca dati o in due diverse banche dati[41] ; infine, la deduzione, vale a dire la possibilità di desumere, con un alto grado di probabilità, il valore di un attributo dai valori di un insieme di altri attributi.

Uno dei metodi più comuni per anonimizzare dei dati comporta l’eliminazione degli identificatori diretti[42]. Tuttavia questa singola operazione, la quale non garantisce che l’identificazione della persona interessata non sia più possibile[43], dovrebbe essere giustamente utilizzata in modo combinato con altre tecniche di anonimizzazione.

All’eliminazione degli identificatori diretti si può aggiungere, a titolo esemplificativo, la tecnica della generalizzazione, la quale comporta la riduzione del grado di dettaglio di una determinata variabile. In via esemplificativa, le date di nascita di singole persone fisiche possono essere generalizzate per mese o anno, producendo una riduzione del grado di identificabilità[44]. Quindi, eliminare i nomi completi degli individui, mantenendo solo l’anno di nascita degli stessi, permetterebbe di de-identificare in modo irreversibile le persone fisiche, potendo comunque effettuare analisi statistiche sul campione di dati.

In conclusione, viene generalmente consigliato di utilizzare una composizione di più tecniche per esercitare una corretta ed efficiente protezione dei dati personali[45].

Diverse le tecniche di anonimizzazione che presentano gradi variabili di affidabilità, come emerge dal Parere n. 5/2014 del WP29. Nello specifico esso individua due macrocategorie[46]: da un lato la randomizzazione, che modifica il grado di verità del dato al fine di eliminare la correlazione che esiste tra lo stesso e la persona; dall’altro la generalizzazione, che consiste nel diluire gli attributi delle persone interessate modificandone la rispettiva scala o il rispettivo ordine di grandezza.

Nella randomizzazione sono ricomprese le tecniche di:

1) Aggiunta di rumore statistico. Utilizzata soprattutto quando gli attributi possano avere un effetto avverso importante sulle persone, essa consiste nel modificare gli attributi contenuti nell’insieme di dati in modo tale da renderli meno accurati, mantenendo nel contempo la distribuzione generale. All’atto di trattare un insieme di dati, un osservatore parte dal presupposto che i valori siano accurati, ma ciò corrisponde solo limitatamente al vero. Ad esempio, se l’altezza di una persona è stata originariamente misurata approssimandola al centimetro più vicino, l’insieme di dati anonimizzati potrebbe contenere un’altezza accurata solo con un’approssimazione di +/-10cm. Qualora la tecnica venga applicata in maniera efficace, eventuali terzi non riusciranno a identificare una persona, né potranno riparare i dati o altrimenti desumere in che modo gli stessi siano stati modificati.

2) La permutazione. Questa consiste nel mescolare i valori degli attributi all’interno di una tabella in modo tale che alcuni di essi risultino artificialmente collegati a diverse persone interessate: è utile quando è importante mantenere l’esatta distribuzione di ciascun attributo all’interno di un insieme di dati. La permutazione può essere considerata una forma speciale di aggiunta di rumore statistico. Nella tecnica classica di aggiunta del rumore, gli attributi vengono modificati mediante valori randomizzati. La generazione di rumore statistico coerente può rappresentare un’operazione difficile da effettuare, mentre modificare solo marginalmente i valori degli attributi potrebbe non tutelare adeguatamente la sfera privata. In alternativa, le tecniche di permutazione modificano i valori contenuti nell’insieme di dati semplicemente permutandoli da un dato all’altro. Tali scambi garantiscono che gamma e distribuzione dei valori rimangano invariate, a differenza delle correlazioni tra valori e persone. Se tra due o più attributi sussiste un legame logico o una correlazione statistica e gli stessi vengono permutati in maniera indipendente, tale legame verrà meno. Può, pertanto, essere rilevante permutare un insieme di attributi correlati in modo da non spezzare il legame logico, altrimenti un intruso potrebbe individuare gli attributi permutati e invertire la permutazione.

3) La differential privacy. Appartiene alla famiglia delle tecniche di randomizzazione, ma adotta un approccio diverso: mentre l’inserimento del rumore statistico interviene prima, al momento dell’eventuale pubblicazione dell’insieme di dati, la differential privacy può essere utilizzata quando il titolare del trattamento genera opinioni anonimizzate di un insieme di dati e conserva al contempo una copia dei dati originali. Le opinioni anonimizzate sono solitamente generate attraverso un sottogruppo di interrogazioni per terzi specifici, che presenta una certa dose di rumore statistico casuale aggiunto appositamente a posteriori. La differential privacy suggerisce al titolare del trattamento la quantità e la forma di rumore statistico che va aggiunto per ottenere le garanzie di tutela della sfera privata richieste. Con tale tecnica, diviene rilevante continuare a controllare (almeno per ogni nuova interrogazione) che non sussista la possibilità di identificare una persona nell’insieme dei risultati dell’interrogazione. Occorre tuttavia chiarire che tale tecnica non modifica i dati originari e pertanto, finché questi permangono, il titolare del trattamento è in grado di identificare le persone all’interno dei risultati delle interrogazioni di differential privacy, tenendo conto dell’insieme dei mezzi che possono essere ragionevolmente utilizzati. Tali risultati vanno trattati alla stregua di dati personali.

Invece, nella generalizzazione vengono classificate le tecniche di aggregazione e di “k-anonymity”. Esse sono volte a impedire l’individuazione di persone interessate mediante il loro raggruppamento con almeno “k” altre persone. A tale scopo, i valori degli attributi sono sottoposti a una generalizzazione tale da attribuire a ciascuna persona il medesimo valore. Ad esempio, riducendo il grado di dettaglio di una località da città a Stato, si include un numero più elevato di persone interessate. Le date di nascita individuali possono essere generalizzate in una serie di date o raggruppate per mese o anno. Altri attributi numerici (ad esempio, retribuzioni, peso, altezza o il dosaggio di un farmaco) possono essere generalizzati mediante il ricorso a intervalli di valori (ad esempio, retribuzione 20.000€ – 30.000 euro)[47].

Tuttavia il difetto principale del modello di k-anonimato consiste nella circostanza che esso non protegge da alcun tipo di attacco tramite deduzione, perchè, se tutte le k persone rientrano in uno stesso gruppo, e se è noto a quale gruppo appartiene una persona, diviene semplice recuperare il valore di tale proprietà[48].

Infine, si deve ricordare anche la tecnica della c.d. l-l-diversità, che amplia il k-anonimato per impedire gli attacchi tramite deduzione deterministica facendo sì che in ciascuna classe di equivalenza ogni attributo abbia almeno l valori diversi[49]. “Un obiettivo fondamentale da conseguire è limitare la presenza di classi di equivalenza con una scarsa variabilità degli attributi, in modo tale che un eventuale intruso che disponga di una conoscenza di base di una persona interessata specifica rimanga sempre con un grado di incertezza significativo. La l-l-diversità è utile per proteggere i dati dagli attacchi tramite deduzione quando i valori degli attributi sono ben distribuiti[50]. Tale tecnica non impedisce la fuga di informazioni se gli attributi all’interno di una partizione sono distribuiti in maniera disomogenea o rientrano in un intervallo ridotto di valori o significati semantici. In definitiva, la l-l-diversità è soggetta ad attacchi tramite deduzione probabilistica.

Da ultimo, la tecnica t-vicinanza, che rappresenta un affinamento della l-l-diversità, poichè è volta a creare classi equivalenti che assomigliano alla distribuzione iniziale di attributi nella tabella.

Qualora si voglia mantenere i dati quanto più possibile prossimi a quelli originali sarebbe opportuno utilizzare tale tecnica; a tale scopo, “alla classe di equivalenza viene imposto un ulteriore vincolo, vale a dire che non solo devono esistere almeno l valori diversi all’interno di ogni classe di equivalenza, ma anche che ogni valore è rappresentato tante volte quante sono necessarie per rispecchiare la distribuzione iniziale di ciascun attributo”[51].

Da quanto sopra, emerge che, da un lato, le tecniche di k-anonimato, la l-l-diversità e la t-vicinanza garantiscono che i dati relativi a una persona non possano essere individuati all’interno della banca dati. Dall’altro, tuttavia, che il principale vantaggio offerto dalla l-diversità e dalla t-vicinanza rispetto al k-anonimato consiste nel fatto che viene eliminata la possibilità di attaccare tramite deduzione una banca dati “l-diversa” o “t-t-vicina” con una sicurezza del 100% [52].

2) Gli studi internazionali sulla tecnica della anonimizzazione dei dati personali.

È stato dimostrato[53] che è possibile estrapolare informazioni sensibili su persone specifiche dai grafici di social-network malgrado le tecniche di “pseudonimizzazione” applicate a tali dati. Un provider di un social network ha erroneamente ritenuto che la pseudonimizzazione fosse efficace per impedire l’identificazione dopo aver venduto i dati ad altre aziende a fini di marketing e di pubblicità. Il provider aveva sostituito i nomi reali con soprannomi, ma evidentemente ciò non è stato sufficiente a rendere anonimi i profili degli utenti, in quanto i rapporti tra le diverse persone sono unici e possono essere utilizzati come identificatori.  Altresì, i ricercatori del MIT20 hanno recentemente analizzato un insieme di dati pseudonimizzato contenente 15 mesi di coordinate di mobilità spaziotemporale di 1,5 milioni di persone in un territorio compreso in un raggio di 100 km. Hanno dimostrato che il 95% delle persone poteva essere identificato mediante quattro luoghi, e che bastavano due luoghi per identificare più del 50% delle persone interessate (uno di tali luoghi è noto, essendo molto probabilmente “casa” o “ufficio”) con un margine molto ridotto di protezione della sfera privata, benché le identità delle persone fossero state pseudonimizzate sostituendo i loro attributi reali […] con altre etichette[54].

Numerosi studi hanno dimostrato che l’anonimizzazzione dei dati personali consente la re-identificazione degli utenti cui i dati stessi si riferiscono.

Infatti, secondo lo studio pubblicato sulla rivista Nature Communications [55] in tutto il mondo le leggi considerano i dati anonimi non più come dati personali, tanto che possono essere utilizzati, condivisi e liberamente rivenduti. Le riviste accademiche, ad esempio, richiedono spesso agli autori di rendere disponibili dati anonimi alla comunità di ricerca. Mentre le norme per i dati anonimi variano, le moderne leggi sulla protezione dei dati, come il Regolamento generale europeo sulla protezione dei dati (GDPR) e il California Consumer Privacy Act (CCPA), ritengono che ogni persona in un set di dati debba essere protetta per il set di dati essere considerato anonimo[56].

Nel 2016, i giornalisti hanno ri-identificato i politici in un set di dati anonimi sulla cronologia di navigazione di 3 milioni di cittadini tedeschi, scoprendo le loro informazioni mediche e le loro preferenze sessuali . Alcuni mesi prima, il Dipartimento della Salute australiano aveva pubblicato pubblicamente le cartelle cliniche de-identificate per il 10% della popolazione solo per consentire ai ricercatori di identificarle nuovamente 6 settimane dopo[57].

In particolare, nello studio in oggetto si afferma anche la possibilità che i dataset, a cui i giornalisti e i ricercatori attingono, potrebbero essere incompleti, tanto che non esiste la sicurezza al 100% di aver re-identificato la persona giusta, anche se vi sono alcune corrispondenze.

Tuttavia, alcuni ricercatori hanno sostenuto che in presenza di dataset incompleti, e dunque incerti, l’anonimizzazione raggiunge il suo obiettivo “anche secondo il GDPR”. L’incompletezza potrebbe derivare, ad esempio, dal fatto che i dataset Fine modulocontengono dati di pazienti di una delle reti ospedaliere di un paese o perché sono stati semplicemente campionati come parte di un processo de-identificativo[58].

Gli autori dell’articolo pubblicato su Nature Communications sono stati in grado, attraverso un nuovo modello statistico, di calcolare quanto è probabile che una qualsiasi voce di un insieme di dati senza nome sia riconducibile alla persona a cui apparteneva, rivelandone l’identità[59]. Negli Stati Uniti, anche lavorando su un set di dati incompleti, bastano solo 15 caratteristiche, che includono età, genere e stato civile, per identificare un utente in più del 99% dei casi. Molti problemi legali dovette affrontare anche una compagnia di analisi nel settore marketing, come riportato su Scientific American, quando nel 2017 pubblicò accidentalmente un set contenente i dati di 123 milioni di famiglie americane, caratterizzate da 123 attributi[60].

Da quanto sopra, emerge che la regola empirica per cui più attributi vi sono, più è probabile che una corrispondenza sia corretta e, quindi, sarà meno probabile trovarsi dinanzi a dati anonimizzati[61].

 

[1] Direttiva 95/46/CE,  considerando 26:  “considerando che i principi della tutela si devono applicare a ogni informazione concernente una persona identificata o identificabile; che, per determinare se una persona è identificabile, è opportuno prendere in considerazione l’insieme dei mezzi che possono essere ragionevolmente utilizzati dal responsabile del trattamento o da altri per identificare detta persona; che i principi della tutela non si applicano a dati resi anonimi in modo tale che la persona interessata non è più identificabile; che i codici di condotta ai sensi dell’articolo 27 possono costituire uno strumento utile di orientamento sui mezzi grazie ai quali dati possano essere resi anonimi e registrati in modo da rendere impossibile l’identificazione della persona interessata”, in https://www.garanteprivacy.it/web/guest/home/docweb/-/docweb-display/docweb/432175.

[2] Direttiva 2002/58/CE si veda: 1) considerando 26: “I dati relativi al traffico utilizzati per la commercializzazione dei servizi di comunicazione o per la fornitura di servizi a valore aggiunto dovrebbero inoltre essere cancellati o resi anonimi dopo che il servizio è stato fornito”; 2)l’articolo 6, paragrafo 1: “I dati sul traffico relativi agli abbonati ed agli utenti, trattati e memorizzati dal fornitore di una rete pubblica o di un servizio pubblico di comunicazione elettronica devono essere cancellati o resi anonimi quando non sono più necessari ai fini della trasmissione di una comunicazione, fatti salvi i paragrafi 2, 3 e 5 del presente articolo e l’articolo 15, paragrafo 1.”; 3) articolo 9, paragrafo 1:“Se i dati relativi all’ubicazione diversi dai dati relativi al traffico, relativi agli utenti o abbonati di reti pubbliche di comunicazione o servizi di comunicazione elettronica accessibili al pubblico possono essere sottoposti a trattamento, essi possono esserlo soltanto a condizione che siano stati resi anonimi o che l’utente o l’abbonato abbiano dato il loro consenso, e sempre nella misura e per la durata necessaria per la fornitura di un servizio a valore aggiunto.” , in https://eur-lex.europa.eu/legal-content/IT/ALL/?uri=CELEX%3A32002L0058.

[3] Si rammenta che l’anonimizzazione viene definita anche in norme internazionali quali ISO 29100 come processo nel quale le informazioni personali identificabili (IPI) sono modificate irreversibilmente in modo tale che un titolare di IPI non possa più essere identificato direttamente o indirettamente, né dal singolo responsabile del trattamento di IPI né dallo stesso in collaborazione con altri (ISO 29100:2011). Anche per l’ISO l’elemento fondamentale è l’irreversibilità delle modifiche subite dai dati personali per consentirne l’identificazione diretta o indiretta. Da questo punto di vista, esiste un considerevole livello di convergenza con i principi e concetti alla base della direttiva 95/46/CE. Ciò vale anche per le definizioni che compaiono in alcune leggi nazionali (ad esempio, in Italia, Germania e Slovenia), dove l’accento è posto sulla non identificabilità e si fa riferimento allo “sforzo sproporzionato” per la reidentificazione (D, SI). Tuttavia, la legge francese in materia di protezione dei dati prevede che i dati rimangano dati personali anche se è estremamente difficile e improbabile re-identificare la persona interessata – vale a dire, non vi sono disposizioni che fanno riferimento al test di “ragionevolezza”.

[4] Cfr. Parere 03/2013 del Gruppo di lavoro articolo 29, in http://ec.europa.eu/justice/data-protection/article-29/documentation/opinion-recommendation/files/2013/wp203_en.pdf.  Si tratta del Gruppo di lavoro per la protezione dei dati personali istituito ai sensi dell’art. 29 della direttiva 95/46/CE. È un organo europeo indipendente a carattere consultivo in materia di tutela dei dati e della vita privata. I suoi compiti sono illustrati all’art. 30 della direttiva 95/46/CE. Cfr. Parere 03/2013 del Gruppo di lavoro articolo 29 disponibile all’indirizzo: recommendation/files/2013/wp203_en.pdf.

[5] Ciò significa in particolare che occorre condurre una valutazione sostanziale alla luce di tutte le circostanze rilevanti, prestando particolare attenzione ai seguenti fattori chiave:  a) il rapporto tra le finalità per le quali sono stati raccolti i dati personali e le finalità del loro trattamento successivo; b) il contesto in cui sono stati raccolti i dati personali e le ragionevoli aspettative delle persone interessate circa il loro ulteriore impiego; c) la natura dei dati personali e l’impatto del trattamento successivo sulle persone interessate; d) le misure di salvaguardia adottate dal responsabile del trattamento per garantire un trattamento equo e per prevenire ripercussioni indesiderate sulle persone interessate.

[6] Cfr. Gruppo di lavoro articolo 29 per la protezione dei dati, Parere 05/2014 sulle tecniche di anonimizzazione,   adottato il 10 aprile 2014, in , su cui si legga il par. 4 di questo lavoro. Va inoltre sottolineato che l’anonimizzazione deve essere conforme ai vincoli giuridici richiamati dalla Corte di giustizia europea nella sua decisione in merito alla causa C-553/07 (College van burgemeester en wethouders van Rotterdam/M.E.E. Rijkeboer), in relazione alla necessità di conservare i dati in forma identificabile in modo da consentire, ad esempio, l’esercizio dei diritti di accesso da parte delle persone interessate. La Corte di giustizia ha decretato che “L’art. 12, lett. a), della direttiva [95/46/CE] impone agli Stati membri di prevedere il diritto di accesso alle informazioni sui destinatari o sulle categorie di destinatari dei dati nonché sul contenuto delle informazioni comunicate non solo per il presente, ma anche per il passato. Spetta agli Stati membri fissare il termine per la conservazione di tali informazioni nonché il corrispondente accesso alle stesse che costituiscano un giusto equilibrio tra, da una parte, l’interesse della persona di cui trattasi a tutelare la propria sfera privata, in particolare, tramite i mezzi di intervento e le possibilità di agire in giudizio previste dalla direttiva e, dall’altra, l’onere che l’obbligo di conservare tali informazioni comporta per il responsabile del trattamento.”

[7] Articolo 29 Gruppo di lavoro per la protezione dei dati personali, Parere 4/2007 sul concetto di dati personali adottato il 20 giugno, in https://www.garanteprivacy.it/documents/10160/10704/ARTICOLO+29+-+WP+136.pdf.

[8] WP29, Parere 4/2007 sul concetto di dati personali, 20 giugno 2007, 6 ss. , cit.

[9]  Cfr. COLAPIETRO Carlo, I principi ispiratori del Regolamento UE 2016/679 sulla protezione dei dati personali e la loro incidenza sul contesto normativo nazionale, in . Si veda anche L. CALIFANO, Privacy: affermazione e pratica di un diritto fondamentale, cit., 48 s., spec. nota 13, la quale, rinvia al richiamato Parere n. 13/2011 in tema di servizi di geolocalizzazione su dispositivi mobili intelligenti, nonché a numerosi provvedimenti del Garante nazionale italiano, tra cui quello datato datato 13 luglio 2016, n. 303. Si veda anche il parere 13/2011 del Gruppo di lavoro “articolo 29” sui servizi di geolocalizzazione su dispositivi mobili intelligenti (maggio 2011), .

[10] CGUE, 19 ottobre 2016, C-582/2014, P. Breyer c. Bundesrepublik Deutshland, spec. paragrafo 49.

[11] Sul punto si veda M. GRANIERI, Il trattamento di categorie particolari di dati personali nel Reg. UE 2016/679, cit., 165 ss., il quale sottolinea come tale formula onnicomprensiva sia certamente idonea ad identificare come dati personali anche i cookies di un sito pornografico, in quanto potenzialmente in grado di individuare, non solo una persona, bensì anche un dato orientamento personale.

[12] Si veda anche FINOCCHIARO, Il quadro d’insieme sul regolamento europeo sulla protezione dei dati personali in Il nuovo regolamento europeo sulla privacy e sulla protezione dei dati personali opera diretta da G. FINOCCHIARO, Zanichelli, 2017.

[13] Redazione “Diritto dell’informatica”, GDPR: quali sono le misure di sicurezza da adottare, 26 marzo 2018, in  http://www.dirittodellinformatica.it/privacy-e-sicurezza/gdpr/gdpr-quali-le-misure-sicurezza-adottare-guida-al-gdpr-6-2.html. Come viene ricordato nel considerando n. 39, ogni trattamento dei dati personali deve possedere il carattere della liceità, in quanto le modalità di raccolta dei dati devono essere rese comprensibili per le persone fisiche ed è, quindi, fondamentale che venga rispettato il principio della trasparenza in modo da rendere “accessibili e comprensibili” tutte le informazioni.

[14] A. D’AGOSTINO E G. GIROTTO, Il Data Protection Impact Assessment “DPIA”: cos’è e come svolgerlo” in Diritto 24-Il Sole 24 Ore, 30 gennaio 2018, in  http://www.diritto24.ilsole24ore.com/art/avvocatoAffari/mercatiImpresa/2018-01-30/il-data-protection-impact-assessment-dpia-cos-e-e-come-svolgerlo-162259.php.

[15] C. DEL FEDERICO- A.R. POPOLI, Disposizioni generali in Il nuovo Regolamento europeo sulla privacy e sulla protezione dei dati personali, opera diretta da G. Finocchiaro, Zanichelli, 2017.

[16] M. IASELLI, Pseudonimizzazione in Altalex, 5 giugno 2018, in:

http://www.altalex.com/documents/altalexpedia/2018/06/04/pseudonomizzazione.

[17] N. FABIANO, Privacy by Design: l’approccio corretto alla protezione dei dati personali, Diritto24, http://www.diritto24.ilsole24ore.com/art/dirittoCivile/2015-04-20/privacy-by-desi-gn-approccio-corretto-protezione-dati-personali-123915.php.

[18] D. WHITELEGG, Minimizing application privacy risk, maggio 2018, https://developer.ibm.com/articles/s-gdpr3/.

[19] M. MOURBY, E. MACKEY, M. ELLIOT, H. GOWANS, S.E. WALLACE, J. BELL, H. SMITH, S. AIDINLIS E J. KAYE, Are ‘pseudonymised’ data always personal data? Implications of the GDPR for administrative data research in the UK, in S. Stalla-Bourdillon (a cura di), Computer Law and Security Review, 2018, Vol. 34, No. 2, p. 223.

[20] Gruppo di lavoro articolo 29, Parere 05/2014 sulle tecniche di anonimizzazione, in: https://ronchilegal.eu/wp-content/uploads/2017/12/Anonimizzazione-secondo-il-WP29-del 2014_it-1.pdf.

[21] Information Commissioner’s Office, What is personal data?https://ico.org.uk/for-organisations/guide-to-data-protection/guide-to-the-general-data-protection-regulation-gdpr/what-is-personal-data/what-is-personal-data/.

[22] Tra gli algoritmi di hash il più noto è SHA (Secure Hash Algorithm). Con il termine SHA si indica una famiglia di cinque diverse funzioni crittografiche di hash (SHA-1, SHA-224, SHA-256, SHA-384 e SHA-512) sviluppate a partire dal 1993 dalla National Security Agency (NSA) e pubblicate dal National Institute of Standards and Technology (NIST) come standard federale degli Stati Uniti. La differenza tra le cinque diverse funzioni è rappresentata dalla dimensione dell’output. Le funzioni producono una stringa di lunghezza in bit pari al numero indicato nella loro sigla. L’unica funzione che differisce nel nome è SHA-1 che non produce un output di 1 bit, ma di 160 bit. Per un ulteriore approfondimento: A. ROLLERI, Algoritmi Hashhttp://alessiorolleri.wikidot.com/algoritmi-hash.

[23]  Cfr. Gruppo di lavoro articolo 29, Parere 05/2014 sulle tecniche di anonimizzazione, cit. Attacchi del genere consistono nel provare tutte le immissioni plausibili al fine di costruire tabelle di corrispondenza.

[24] Ivi. Soprattutto se è noto il tipo di attributo (nome, codice fiscale, data di nascita, ecc.). Per aumentare il numero di calcoli, si potrebbe ricorrere a una funzione di hash derivata da una chiave, in cui il valore calcolato viene sottoposto a diversi hashing con un salt breve.

[25] Ivi. A seconda degli altri attributi contenuti nell’insieme di dati e della cancellazione dei dati originali.

[26] Ivi.

[27] Ivi.

[28] Uno dei più antichi algoritmi crittografici di cui si abbia traccia storica è il cifrario di Cesare. Si tratta di un cifrario a sostituzione monoalfabetica in cui ogni lettera del testo in chiaro è sostituita nel testo cifrato dalla lettera che si trova un certo numero di posizioni dopo nell’alfabeto. Questi tipi di cifrari sono detti anche cifrari a sostituzione o cifrari a scorrimento, a causa del loro modo di operare: la sostituzione avviene lettera per lettera, scorrendo il testo dall’inizio alla fine. Il cifrario di Cesare prende il nome da Giulio Cesare, che lo utilizzava per proteggere i suoi messaggi segreti. Grazie all’opera storiografica Vite dei Cesari di Svetonio sappiamo che Cesare utilizzava in genere una chiave di tre per il cifrario (cioè sostituire una lettera con quella che si trova tre posizioni dopo), come nel caso della corrispondenza militare inviata alle truppe comandate da Quinto Tullio Cicerone. Al tempo era un metodo sicuro perché gli avversari spesso non erano in grado di leggere un testo in chiaro, men che mai uno cifrato; inoltre non esistevano metodi di crittanalisi in grado di rompere tale codice, per quanto banale. Per approfondire ulteriormente: Wikipedia, Cifrario di Cesarehttps://it.wikipedia.org/wiki/Cifrario_di_Cesare.

[29] G. SPINDLER e P. SCHMECHEL, Personal Data and Encryption in the European General Data Protection Regulation, in Journal of Intellectual Property, Information Technology and E-Commerce Law, 2016, Vol. 7, p. 169, §32.

[30] N. FABIANO, Privacy by Design: l’approccio corretto alla protezione dei dati personali, Diritto24, http://www.diritto24.ilsole24ore.com/art/dirittoCivile/2015-04-20/privacy-by-desi-gn-approccio-corretto-protezione-dati-personali-123915.php.

[31] La crittografia simmetrica, o crittografia a chiave simmetrica (symmetric-key cryptography) utilizza una sola chiave privata sia per cifrare che per decifrare i dati. Si veda IBM Knowledge Center, Symmetric cryptographyhttps://www.ibm.com/sup-port/knowledgecenter/en/SSB23S_1.1.0.15/gtps7/s7symm.html; La crittografia simmetrica utilizza diversi algoritmi e tra questi i più famosi sono il DES (Data Encryption Standard) e l’AES (Advanced Encryption Standard). Per approfondire si veda DES: A. ROLLERI, Data Encryption Standardhttp://alessiorolleri.wikidot.com/crypto-des; AES: A. ROLLERI, Algoritmo AES, http://alessiorolleri.wikidot.com/crypto-aes.

[32] Per la crittografia asimmetrica, o crittografia a chiave asimmetrica (asymmetric-key cryptography), si veda IBM Knowledge Center,  Public key cryptography, in https://www.ibm.com/support/knowledgecenter/en/SSB23S_1.1.0.15/gtps7/s7pkey.html; A. Rolleri, Algoritmo RSAhttp://alessiorolleri.wikidot.com/crypto-rsa.

[33] G. SPINDLER E P. SCHMECHEL, op. cit., p. 169 e segg.

[34] Si veda WhatsApp – Sicurezza e privacy, Crittografia End-to-Endhttps://faq.whats-app.com/it/android/28030015/; ChatMap, End-to-End Encryption Explained – Infographic, in http://www.chatmap.io/blog/end-to-end-encryption-explained.php.

[35] Gruppo di lavoro articolo 29, Parere 05/2014 sulle tecniche di anonimizzazione, p. 7, qui consultabile: https://ronchilegal.eu/wp-content/uploads/2017/12/Anonimizzazione-secondo-il-WP29-del-2014_it-1.pdf.

[36] Ivi.

[37] D. WHITELEGG, Minimizing application privacy risk, maggio 2018, https://developer.ibm.com/articles/s-gdpr3/.

[38] Regolamento (UE) 2018/1807 relativo a un quadro applicabile alla libera circolazione dei dati non personali nell’Unione europea, qui consultabile: https://eur-lex.europa.eu/legal-content/IT/TXT/PDF/?uri=CELEX:32018R1807&from=EN.

[39]UK Data Service, Anonymisation, in https://www.ukdataservice.ac.uk/manage-data/legal-ethical/anonymisation/qualitative.aspx.

[40] Ivi.

[41] Cfr. Gruppo di lavoro articolo 29, Parere 05/2014 sulle tecniche di anonimizzazione, cit., da cui emerge che “se un intruso riesce a determinare (ad esempio mediante un’analisi della correlazione) che due dati sono assegnati allo stesso gruppo di persone, ma non è in grado di identificare alcuna persona del gruppo, la tecnica fornisce una protezione contro l’individuazione, ma non contro la correlabilità”.

[42] UK Data Service, Anonymisation, cit.

[43] Cfr. Gruppo di lavoro articolo 29, Parere 05/2014 sulle tecniche di anonimizzazione, cit.

[44] Ivi.

[45] Per esempio, considerando quanto espresso nei precedenti paragrafi, dopo aver applicato una misura per pseudonimizzare un set di dati, potrebbe essere efficace proteggere le “informazioni aggiuntive” contenute nella tabella delle corrispondenze applicando una tecnica crittografica, in modo da ridurre il rischio di accessi non autorizzati alle informazioni fondamentali per identificare gli interessati. In tal senso si veda STEFANELLO D., Come proteggere i dati personali? Anonimizzazione, pseudonimizzazione e cifratura a confronto, in https://www.iusinitinere.it/come-proteggere-i-dati-personali-anonimizzazione-pseudonimizzazione-e-cifratura-a-confronto-17616.

[46] Cfr. Gruppo di lavoro articolo 29, Parere 05/2014 sulle tecniche di anonimizzazione, cit.

[47] Ivi.

[48] Ivi.

[49] Ivi.

[50] Ivi.

[51] Ivi

[52] Ivi.

[53] A. NARAYANAN E V. SHMATIKOV, “De-anonymizing social networks”, nel trentesimo simposio dell’IEEE sulla sicurezza e la sfera privata, 2009. 20 Y.-A. de Montjoye, C. Hidalgo, M. Verleysen e V. Blondel, “Unique in the Crowd: The privacy bounds of human mobility,” Nature, num. 1376, 2013.

[54]  Ivi.

[55] Cfr. Estimating the success of re-identifications in incomplete datasets using generative models, 2019, in    https://www.nature.com/articles/s41467-019-10933-3.

[56] Ivi. Anteriormente, addirittura, gli studi avevano dimostrato che i dati sulle dimissioni ospedaliere de-identificati potevano essere ri-identificati usando gli attributi demografici di base e che codici diagnostici, anno di nascita, genere ed etnia potevano identificare in modo univoco i pazienti nei dati di studi genomici . Infine, i ricercatori sono stati in grado di identificare in modo univoco le persone in traiettorie di taxi anonimizzate a New York , viaggi in bici a Londra, dati della metropolitana a Riga e set di dati di telefoni cellulari e carte di credito.

[57]Cfr. CULNANE, C., RUBINSTEIN, BIP & Teague, V. Dati sanitari in un mondo aperto. Preprint su: https://arxiv.org/abs/1712.05627 (2017).

[58] Ivi. In particolare, si veda RUGGLES, S., KING, ML, LEVISON, D., MCCAA, R. & SOBEK, M. IPUMS-International. Hist. Metodi 36 , 60–65 (2003), dove si osserva che l’US Census Bureau rilascia solo l’1% del censimento decennale e le frazioni di campionamento per il censimento internazionale vanno dallo 0,07% in India al 10% nei paesi sudamericani. Le aziende stanno adottando approcci simili con, ad esempio, il set di dati del Premio Netflix incluso <10% dei loro utenti (cfr. Bennett, J. & Lanning, S. Il premio Netflix. Nel Proc. KDD Cup and Workshop , 35–38 (ACM, New York, NY, 2007), in http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.115.6998).

[59] Cfr. Estimating the success of re-identifications in incomplete datasets using generative models, cit.

[60] Sul tema della anonimizzazione del dato, si legga anche BUSHWICK S., “Anonymous” Data Won’t Protect Your IdentityA new study demonstrates it is surprisingly easy to ID an individual within a supposedly incognito data set, 23 giugno 2019, in https://www.scientificamerican.com/article/anonymous-data-wont-protect-your-identity/.

[61] MISCHITELLI L., Privacy a rischio anche se il dato è “anonimizzato”: ecco come tutelarla, in https://www.agendadigitale.eu/sicurezza/privacy/utenti-riconoscibili-anche-con-dati-anonimizzati-ecco-come-salvare-la-privacy/.

Un pensiero su “Anonimizzazione del dato: le tecniche possibili

Lascia un commento