Publisert:

Skrevet av:

Elin Ruhlin Gjuvsland

Skjæringspunktet mellom kunstig intelligens og personvern er et veldig hett tema akkurat nå, og CLEANUP er midt i blinken.

CLEANUP ble lansert på koronatilpasset vis, med forskningspartnere og oppdragsgivere samlet på nett.

– Prosjektet skal undersøke hvordan vi kan bruke AI-metoder til å automatisk fjerne personopplysninger fra tekstdokumenter, som feks. pasientjournaler, rettsavgjørelse, saksbehandlingnotater eller utvekslinger med kunder, forteller en entusiastisk prosjektleder, Pierre Lison, som til daglig jobber som seniorforsker i Norsk Regnesentral.

Sensitive data

En alvorlig sykdom, forhold som gjør at du er tiltalt i en straffesak, eller mottager av en velferdstjeneste. Disse personlige dataene er så sensitive at de har en ny lov, GDPR, som skal sikre en begrenset tilgang og at personvernet overholdes.

Samtidig er databaser med denne typen informasjon verdifulle, både for bedrifter og for samfunnet. Pasientjournaler er essensielle for biomedisinsk forskning, og kundedata kan forbedre tjenestene for en bedrift. 

Det er med andre ord mange grunner til at folks sensitive og personlige data kan være en utfordring å behandle, både for private og offentlige aktører. CLEANUP tar altså sikte på å tette gapet mellom disse to teknologiske utfordringene. Ved å automatisk anonymisere tekstdokumenter, kan CLEANUP gi tilgang til databaser på en måte som ivaretar personvernet.

Tverrfaglig

Prosjektet er et tverrfaglig samarbeid med Institutt for Informatikk og Det juridiske fakultet ved Universitetet i Oslo, Norges Teknisk-naturvitenskapelige universitet, Universitat Rovira i Spain, DNB, NAV, Gjensidige, Lovdata, Norsk helsearkiv og Norsk Regnesentral.

– Det at dette prosjektet er tverrfaglig er et spennende aspekt ved CLEANUP, med partnere som er språkteknologer, statistiskere, sikkerhetseksperter, helseinformatikere og til og med flere jurister, forteller Pierre.

CLEANUP vil på sikt også utvikle nye metoder for å evaluere kvaliteten til de nye tekstanonymiseringsteknikkene, og undersøke hvordan de teknologiske løsningene kan integreres i de ulike organisasjonene og eierne.

Nyansatt språkforsker

Prosjektet er initiert av Pierre Lison i Norsk Regnesentral, og herfra vil også nyansatte Ildikó Pilán bidra. 

– Ildikó studerte lingvistikk og språkundervisning i hjemlandet Ungarn, deretter tok hun en mastergrad i språkteknologi i Göteborg, og fortsatte i en doktorgrad i samme fagfelt. Der utviklet hun også nye maskinlæringsmodeller for datastøttet språkopplæring. Etter at doktorgraden var ferdig jobbet hun som postdoc ved City University of Hong Kong og Institutt for Informatikk på UiO. Nå deltar hun i tillegg i BigMed-prosjektet, og forsker på hvordan språkteknologi kan brukes til å automatisk analysere data fra pasientjournaler.