Strona korzysta z plików cookies w celu realizacji usług i zgodnie z Polityką Plików Cookies.



31.12.2020

Cykl webinarów

weinnovators.club
30.12.2020

Integracja z Teams

Veeam Backup
30.12.2020

Namierzanie zagrożeń

Flowmon Networks i Fortinet
30.12.2020

Wsparcie dla przedsiębiorstw

VMware Cloud on AWS
29.12.2020

Nowe NAS-y Thunderbolt 3

QNAP QuTS TVS-h1288X i TVS-h1688X
29.12.2020

Modele kompaktowe

VPL-PHZ60 i VPL-PHZ50
28.12.2020

Dedykowane przemysłowi

Seria TJ
28.12.2020

Nowa generacja

Router QHora-301W

Czy skuteczna anonimizacja istnieje

Data publikacji: 26-11-2020 Autor: Maciej Olanicki

Anonimizacja i pseudonimizacja danych osobowych to kluczowe zagadnienia rodo i podstawowy element ochrony danych użytkowników w ogóle. Ostatnie badania rzucają jednak na skuteczność anonimizacji nowe światło. Okazuje się bowiem, że w sprzyjających okolicznościach, dysponując stosunkowo niewielkim zasobem informacji, można skutecznie zdeanonimizować w zasadzie każdego.

 

Możliwość identyfikacji konkretnych osób na podstawie przechowywanych danych jest głównym czynnikiem, który determinuje konieczność stosowania przepisów rodo. Co jednak ciekawe, w samym rodo nie uświadczymy definicji anonimizacji. Jest tak, gdyż dotyczy ono wyłącznie tych danych, które pozwalają na identyfikację osób fizycznych, a przecież zakładamy, że anonimizacja jest praktyką, która w sposób trwały to uniemożliwia. W preambule rodo znajdziemy następujący zapis: „zasady ochrony danych nie powinny więc mieć zastosowania do informacji anonimowych, czyli informacji, które nie wiążą się ze zidentyfikowaną lub możliwą do zidentyfikowania osobą fizyczną, ani do danych osobowych zanonimizowanych w taki sposób, że osób, których dane dotyczą, w ogóle nie można zidentyfikować lub już nie można zidentyfikować”.
W rezultacie, przynajmniej w teorii, można dowolnie handlować zanonimizowanymi danymi bez obaw o kary nakładane przez prezesa UODO. Rzecz w tym, że stosowane dziś mechanizmy anonimizacji danych, a zatem trwałego i nieodwracalnego rozłączenia danych i ich posiadacza, co ma uniemożliwiać jego identyfikację, mogą się okazać w dużej mierze nieskuteczne. W rezultacie ogromne internetowe sieci reklamowe, które są głównym źródłem przychodów między innymi takich potęg jak Google czy Facebook, mogą bez przeszkód i w sposób dalece zautomatyzowany przekazywać sobie dowolne informacje, które następnie… mogą w drodze deanonimizacji posłużyć do identyfikacji konkretnych osób fizycznych, co na powrót obejmuje je ochroną przez rodo.


BADANIA NAD DEANONIMIZACJĄ


Takiego zdania są autorzy pracy „Estimating the success of re-identifications in incomplete datasets using generative models” dostępnej pod adresem go.nature.com/3n3EcCA. Julien Hendrickx, profesor z belgijskiego Katolickiego Uniwersytetu w Lowanium, Luc Rocher, doktorant tamże, oraz Yves-Alexandre de Montjoye, profesor Imperial College London, opracowali algorytm, dzięki któremu dysponując zaledwie 15 parametrami, można zidentyfikować około 99,98% amerykańskich „zanonimizowanych” internautów.


Jako parametr należy rozumieć tu pojedynczą informację o osobie fizycznej, np. płeć, wiek czy adres zamieszkania. Im więcej parametrów, tym szybciej i skutecznej można identyfikować „zanonimizowane” osoby. Co ważne, gdy dysponujemy zaledwie trzema parametrami (płeć, data urodzin, kod pocztowy) prawdopodobieństwo identyfikacji nadal jest bardzo wysokie i sięga średnio 79%. Dla orientacji w sytuacji warto przywołać informację, że w 2017 roku amerykański broker danych Experian sprzedał firmie analitycznej Alteryx bazę danych zawierającą aż 248 atrybutów dotyczących 120 mln Amerykanów. W 2017 roku baza ta wyciekła.
Skuteczność algorytmu każdy może sprawdzić na stronie Computational Privacy Group przy Imperial College London pod adresem cpg.doc.ic.ac.uk/individual-risk.

 

Trzeba przyznać, że wyniki robią ogromne wrażenie. Osoba urodzona tego samego dnia co autor i zamieszkująca w niemal 9-milionowym Londynie zostałaby na podstawie zaledwie trzech parametrów (kod pocztowy, płeć, data urodzenia) zidentyfikowana z około 75-procentowym prawdopodobieństwem. A przecież trzeba zauważyć, że naukowcy skupili się wyłącznie na danych osobowych, ignorując inne indywidualne
informacje, jakie pozostawiamy po sobie w sieci, jak na przykład rozdzielczość ekranu czy user-agent przeglądarki internetowej. Każdy z tych parametrów w połączeniu z tradycyjnie pojmowanymi danymi osobowymi windować będzie skuteczność opracowanego przez nich algorytmu.


To zaś pozwala członkom zespołu twierdzić, że wbrew powszechnemu mniemaniu stosowane dziś mechanizmy anonimizacji nie mogą być uznawane za skuteczne metody zaprzeczania tożsamości i nie chronią efektywnie tożsamości internautów. Z drugiej zaś strony dostrzegają oni potrzebę przetwarzania tych informacji choćby w celach statystycznych, np. przez systemy służby zdrowia. W efekcie sytuacja, w której dane można z dużą skutecznością dowolnie anonimizować, przetwarzać je „pod radarem” ogólnego rozporządzenia o ochronie danych osobowych, a następnie na ich podstawie identyfikować osoby fizyczne.

 

[...]

 

 

Pełna treść artykułu jest dostępna w papierowym wydaniu pisma.

prenumerata Numer niedostępny Spis treści

.

Transmisje online zapewnia: StreamOnline

All rights reserved © 2019 Presscom / Miesięcznik "IT Professional"