Artikkel

Syntetiske testdata eller personopplysninger ved testing?

Er din virksomhet bevisst på hva slags data som benyttes i test? 

Offentlige og private virksomheter besitter og benytter tekniske systemer som kan inneholde personopplysninger. Systemene må testes med data som er mest mulig lik dem som faktisk skal behandles i systemet før de kan tas i bruk. Kan din virksomhet bruke reelle personopplysninger ved testing?

Publisert 24.08.2020

Enkelte vil mene at reelle personopplysninger er best egnet til testing av nye teknologiske løsninger og systemer. Begrunnelsen kan være at jo mer virkelighetsnære data, desto bedre tester og bedre resultat. Bruk av reelle personopplysninger i test utgjør imidlertid et stort inngrep i personvernet til den enkelte registrerte. Personvernforordningen (GDPR) oppstiller også et krav om innebygd personvern (privacy by design) og personvern som standardløsning (privacy by default).

Bruk av syntetiske testdata vil være et viktig bidrag for oppfyllelsen av dette kravet. Både EDPS (European Data Protection Supervisor) og Datatilsynet har uttalt at bruk av personopplysninger i test bør unngås. Det klare utgangspunktet er derfor at testing skal skje ved bruk av anonymiserte eller aller helst syntetiske data. Flere virksomheter viser til behovet for å effektivisere testprosessene sine og bli mindre sårbare når de går over til bruk av syntetiske data. Samtidig unngår de til dels krevende personvernrettslige problemstillingene som oppstår ved bruk av personopplysninger i test. Dersom virksomheter likevel anser det som nødvendig å benytte personopplysninger i test må dette vurderes og dokumenteres grundig i tillegg til at en rekke personvernrettslige krav må være oppfylt.

Er din virksomhet bevisst på hva slags data som benyttes i test?

Ulike typer data

Det må skilles mellom ulike typer data; produksjonsdata som inneholder personopplysninger, anonymiserte data, pseudonymiserte data og syntetiske data. Med produksjonsdata menes reelle data, det vil si personopplysninger som kan knyttes til en identifisert eller identifiserbar person. Anonymiserte data er produksjonsdata som er avidentifiserte. Dette betyr at dataene ikke lenger kan knyttes til en/flere identifiserte eller identifiserbare person(er) hverken nå, eller i fremtiden. Her stilles strenge krav!

Pseudonymiserte data er personopplysninger som er behandlet på en slik måte at de ikke lenger kan knyttes til en bestemt person uten tilleggsopplysninger. Pseudonymiserte data er imidlertid ikke fullt ut anonymiserte fordi det kan være mulig å koble ulike opplysninger sammen og på den måten bakveisidentifisere personer.

Syntetiske data inneholder ikke personopplysninger som kan knyttes til en identifisert eller identifiserbar person. Dette er fiktive data som er laget for testformål og som ikke stammer fra datasett med reelle personopplysninger. Syntetiske data skal fremstå realistiske slik at de gir et best mulig testresultat. Det er kun syntetiske data og fullt ut anonymiserte data som faller utenfor personvernregelverket.

Som et eksempel på hvordan slike syntetiske data kan utvikles skal NAV og Visma sin løsning for testing kort nevnes. De har utviklet en testløsning med tre såkalte basisløsninger; et «Mini-Norge» som består av over 200 000 testdatapersoner som likner på befolkningen i Norge, selvbetjeningsløsningen «Dolly» hvor testerne selv kan lage de testdatapersonene det er behov for og en applikasjon kalt «Orkestrator» som holder kontroll på de ulike testdatapersonene. NAV vant også Datatilsynets pris for innebygd personvern i 2019 med denne løsningen og dette viser at syntetiske testdata er stadig mer aktuelt.

Kan personopplysninger benyttes i test?

Tester skal gjennomføres på en måte som best mulig beskytter personvernet. Virksomheter som mener de kan argumentere for at det er strengt nødvendig å bruke personopplysninger i test for å sikre et riktig resultat, må derfor ha gode rutiner for å vurdere og dokumentere sine valg. Ved siden av å vurdere nødvendigheten av å bruke personopplysninger, skal det blant annet vurderes hvorvidt virksomheten har rettslig grunnlag for bruk av personopplysninger i test. Flere offentlige etater har den senere tiden fått hjemmel i lov for å benytte personopplysninger i test og utvikling for å utøve sin offentlige myndighet. Eksempelvis tolloven § 12-18, husbankloven § 12 tredje ledd og skattebetalingsloven § 3-5. Dette gjelder likevel kun der det vil være umulig eller uforholdsmessig vanskelig å oppnå formålet ved å bruke anonyme eller syntetiske data.

Også Datatilsynet er tydelige på at det ikke er tilstrekkelig å argumentere for at det er vanskelig eller dyrt å bruke anonymiserte eller syntetiske data. Samtykke kan være upraktisk som rettslig grunnlag, så kanskje står man igjen med en vurdering av om virksomheten har en berettiget interesse i å bruke personopplysningene i test. Dette kan være vanskelige vurderinger og her er det viktig å ikke trå feil. Som praksis har vist de siste årene kan det bli kostbart å trå feil i disse vurderingene.

Også personvernregelverkets øvrige grunnleggende prinsipper skal vurderes, slik som at kravet om at behandlingen av personopplysningene er begrenset til et bestemt formål. Kan virksomheten godtgjøre at bruk av personopplysninger til testformål er i tråd med formålet personopplysningene ble samlet inn for? Personopplysningene som brukes må være relevante og begrenset til det som er nødvendig for å realisere formålet det skal behandles for (dataminimering).

Dette betyr at dersom virksomheten kan realisere formålet ved å bruke syntetiske testdata så skal ikke personopplysninger benyttes i testingen. I denne forbindelse skal det også nevnes at bruk av syntetiske testdata i tillegg til å oppfylle prinsippet om dataminimering kan medføre andre fordeler for virksomheter. Det kan eksempelvis benyttes maskinlæring for å gjøre syntetiske testdata omtrent like realitetsnære som reelle personopplysninger, og dette kan være både kostnadsmessig og tidsmessig effektivt.

Videre er det ofte behov for store mengder testdata og enkelte systemer krever grundig testing på grunn av mange ulike grensetilfeller og variabler av opplysninger knyttet til individer. Ved å utvikle syntetiske testdata kan man lage de testdataene man ser at det er behov for, og dermed teste ut alle potensielle scenarioer, også de mer sjeldne og sære. Slik får virksomheter et bredt testgrunnlag. Bruk av syntetiske testdata kan også gi styrket sikkerhet, fordi virksomheter er mindre sårbare for dataangrep dersom ikke reelle personopplysninger benyttes.

Det skal også vurderes hvorvidt de registrertes rettigheter er godt nok ivaretatt. Har de registrerte fått informasjon om at deres opplysninger vil bli brukt til testformål? Sikkerhetstiltak skal også vurderes for å sikre at sikkerhetsnivået som forutsettes i personvernregleverket overholdes, herunder vern mot uautorisert eller ulovlig behandling og mot utilsiktet tap, ødeleggelse eller skade og ved bruk av egnede tekniske og organisatoriske tiltak. Konsekvensene ved et sikkerhetsbrudd er vesentlig større ved bruk av personopplysninger i test enn ved bruk av syntetiske eller anonymiserte data.

Dersom virksomheten din benytter databehandlere til å levere tjenester må du sikre at databehandlerens tillatte behandling av personopplysninger er godt nok beskrevet. Databehandler har ikke lov til å behandle personopplysningene annet etter den behandlingsansvarliges instruks og du må derfor følge opp at databehandleren ikke benytter din virksomhets personopplysninger til egne testformål.

For å sikre at testing foregår i samsvar med personvernregelverket, bør man utarbeide interne rutiner og retningslinjer som ivaretar alle nevnte steg i vurderingen av hva slags type opplysninger som skal brukes.

Spørsmål?

Ta kontakt med Deloitte Advokatfirma dersom virksomheten din har behov for hjelp til å utforme rutiner for å vurdere hva slags data som skal brukes i test, herunder formulering av aktuelle vurderingstema, og/eller dersom virksomheten din har behov for hjelp til å foreta vurderinger av når personopplysninger kan benyttes i test.

Var denne siden nyttig?