Az „anonimizált” adatok kevésbé anonimak, mint gondolnánk
Az utóbbi időben több tudományos hangvételű cikk is jelent meg azzal kapcsolatban, hogy a big data korában egyre nehezebben képzelhető el a kereskedelmi területen az anonimizált adat fogalma. Adatot gyűjt már az autó, a hűtő, a karóra, de akár a fogkefénk is, arról nem is beszélve, hogy egy sima vásárláshoz kapcsolódó adatkezelés is több száz, vagy akár több ezer informatikai rendszeren keresztül történik meg, mely során a neten egy Shopify webshopban, Paypalon keresztül kifizetem a terméket, amit aztán más csomagol, más szállít és más hoz házhoz. Annyi adat áll rendelkezésre, hogy bár a cégek ennek ellenkezőjét állítják, mégis egyre nehezebben elképzelhető ezen a területen az anonimitás.
A Harvard Egyetem két hallgatója az adatvédelmi incidensek során nyilvánosságra került adatbázisok vizsgálata során arra jutott, hogy bár ezek az adatok „anonimizálva” voltak, mégsem túl nehéz az összevetésük során az érintettek azonosítása. Elmondásuk szerint egy kiszivárgott adatbázis önmagában nem sokat ér, azonban több ilyen esemény adatainak összesítésével már viszonylag tiszta kép rajzolódhat ki az érintettről.
Példaként említik, hogy lehetséges, hogy az egyik cég tárolja a felhasználónevet, jelszót, email címet és egyéb alap adatokat, míg egy másik cég böngészési és lokációs adatokat kezel ugyanerről a személyről. Az adatok külön-külön valószínűleg nem azonosítanák az érintettet, együtt vagy további adatokkal kiegészülve azonban már lehetővé tehetik az érintett azonosítását. Lehetséges az is, hogy a fentiek szerint rosszul anonimizált adatbázisokat összevessenek éles adatbázisokkal és az egyezőségek alapján új információkhoz jussanak korábban már azonosított személyekről.
Még a két egyetemista is meglepődött azon, hogy mennyi adat érhető el publikusan vagy a dark neten keresztül úgy, hogy a közvéleménynek fogalma sincs arról milyen veszélyeket hordoz ez magában. Meglepődve tapasztalták azt is, hogy az emberek még mindig mennyire hanyagul kezelik a jelszavaikat, egy 96 ezer jelszót tartalmazó adatbázisban például csupán 26 ezer egyedit találtak.