AU

Støj beskytter persondata

I det moderne sundhedsvæsen er det et helt centralt værktøj at indsamle og analysere data for en stor gruppe patienter for at finde mønstre. Hvem har gavn af en bestemt behandling? Hvem risikerer at få bivirkninger?

Men datasæt med personoplysninger skal beskyttes. Dels for at værne om den enkeltes ret til privatliv, dels fordi læk vil svække borgernes tillid, så færre vil sige ja til at medvirke i undersøgelser fremover.

Derfor har forskere fra Datalogisk Institut på Københavns Universitet udviklet en smart metode til at beskytte datasæt.

»Der er mange eksempler på, at datasæt er stillet til rådighed for offentligheden i anonymiseret form, hvorefter folk har været i stand til at finde frem til deltagernes identitet. Det skyldes, at der findes så mange andre kilder til information i den moderne verden. Derfor vil det ofte være muligt at afdække folks identitet selv uden navne eller CPR-numre. Men vi har fundet en praktisk og økonomisk måde at beskytte datasæt, der anvendes til maskinlæring,« siger ph.d.-studerende Joel Daniel Andersson.

Tilfældige data

Forskernes metode består i at tilsætte tilfældige data, såkaldt støj, til de data der skal sløres. I modsætning til kryptering, hvor man tilføjer støj for senere at fjerne den igen, vil støjen i forskernes metode blive i datasættet. Faktisk vil det være umuligt at fjerne den, for støjen kan ikke skelnes fra de rigtige data.

Ifølge Joel Daniel Andersson gælder det om at tilføje en tilpas mængde støj, så det bliver umuligt at genkende de oprindelige data, men samtidig bevare værdien af datasættet.

»Hvis der er nok støj i dataene, bliver det umuligt at udlede værdien af et enkelt datapunkt, selv hvis du kender samtlige øvrige datapunkter. Man kan sige, at vi sætter et autoværn op omkring vekselvirkningen mellem analytiker og datasæt. Da analytikerne ikke får de rå data, men kun kan stille spørgsmål til datasættet, får de aldrig viden om individer. Dermed kan analytikerne aldrig lække data hverken bevidst eller utilsigtet.«

Beskyttelse af privatlivet

Naturligvis er det surt for ejeren af et datasæt at skulle forurene output fra det med støj.

»En noget dårligere brugsværdi af datasættet er den pris, man betaler for at beskytte retten til privatliv for de deltagere, som har leveret data,« siger Joel Daniel Andersson.

Der findes ikke en universelt rigtig balance mellem beskyttelse af et vilkårligt datasæt og brugbarheden af det, forklarer Joel Daniel Andersson:

»Du skal vælge den balance, der er rigtig i det givne tilfælde. Hvis vigtigheden af beskyttelse af privatliv er meget høj – for eksempel når der er tale om medicinske data – bør du vælge en stærk beskyttelse. Der skal altså tilføjes meget støj. Det vil nogle gange betyde, at du bliver nødt til at have flere data, altså have flere personer med i undersøgelsen, for stadig at have værdi af dit datasæt. I andre situationer, hvor behovet for beskyttelse er knap så højt, kan du nøjes med at tilsætte mindre støj. På den måde bevarer du værdien af datasættet bedre, og du mindsker også dine udgifter.«

Netop økonomi er den vigtigste grund til, at forskergruppens metode har fået så stor opmærksomhed, tilføjer han:

»Kernespørgsmålet er, hvor meget støj du skal tilsætte for at opnå et givent niveau af beskyttelse. Det er her vores smidige mekanisme har et fortrin i forhold til kendte metoder. Vi kan klare os med mindre støj og med lavere forbrug af computerkraft. Kort sagt mindsker vi udgiften ved at beskytte privatlivet.«


Michael Skov Jensen, Københavns Universitet, https://arxiv.org/pdf/2306.09666.pdf