Ansvarlig KI: Hva kan vi lære av Rotterdam?
Allerede i 2015 forsøkte nederlandske myndigheter å finne velferdssvindlere ved hjelp av en algoritme. Det gikk veldig galt.
DEBATTINNLEGG AV ANDERS LØLAND, FORSKNINGSSJEF I NORSK REGNESENTRAL OG LEDER AV BIGINSIGHT. Første gang publisert i Digi.no 11.11.23.
Det er for tida høye forventninger til kunstig intelligens’ evne til å effektivisere verden generelt og velferdsstaten spesielt. Samtidig går debatten om regulering av kunstig intelligens (KI/AI), som blant annet kommer gjennom EUs AI Act.
Enkelte har tatt til orde for at utviklingen av kunstig intelligens bør settes på pause. Sist ute var SV, som vil innføre et moratorium i offentlig sektor mot å ta i bruk nye kommersielle verktøy som bygger på kunstig intelligens (KI).
Jeg vil advare både mot en ukritisk pause og en brå innføring av kunstig intelligens i offentlig sektor. For å finne den riktige balansen kan vi lære mye av Rotterdam.
KI oppdaget svindlere
En bakside av velferdsstatens medalje er misbruk av sikkerhetsnettet. Derfor prøvde Rotterdam fra 2015 å finne velferdssvindlere ved hjelp av en algoritme.
Det gikk veldig galt.
Mellom 2015 og 2019 brukte ulike nederlandske kommuner en statlig maskinlæringsmodell kalt SyRI (System Risk Indicator) for å finne velferdssvindlere.
SyRI var en videreutvikling av to tidligere systemer og ble trent på data samlet inn fra Rotterdam. SyRI beregner en personlig risiko for svindel for en enkelt bruker av velferdstjenester basert på hele 315 egenskaper eller datapunkter for den personen. Noen av disse opplysningene er objektive, slik som alder, hvor du bor, hvilke velferdsytelser du mottar og skattemessige forhold.
Andre egenskaper er subjektive og kan komme fra en saksbehandlers vurdering av deg.
SyRI ble utviklet spesielt for og anvendt på såkalte problem-nabolag, med andre ord nabolag med over gjennomsnittlig mye kriminalitet og fattigdom samt en høy andel mottakere av velferdsytelser.
Brøt med grunnleggende menneskerettigheter
Gjennom mange år har nederlandske frivillige organisasjoner og individer protestert på bruken av SyRI. I 2020 bestemte en nederlandsk domstol at bruken av systemet måtte stoppe fordi SyRI brøt med grunnleggende menneskerettigheter, særlig når det gjaldt personvernet. Systemet utvikles etter sigende videre i en mer ansvarlig variant.
Etter hvert ble Rotterdam by nødt til å gi mer innsyn i SyRI og hvilke data som ble brukt i systemet, og det finnes en kalkulator hvor en kan selv kan teste modellen. (For den interesserte leser: Det viser seg at modellen er basert på såkalte beslutningstrær.)
Kalkulatoren gir meg muligheten til å illustrere hvordan systemet oppfører seg for noen tenkte tilfeller. Jeg vil på veien havne i en liten blindsone, som jeg vil komme tilbake til.
Kategoriserte flere kvinnelige svindlere enn menn
I utgangspunktet setter vi tallverdiene til egenskapene til en imaginær, gjennomsnittlig person (som viser seg å være en mann!). Det gir en sannsynlighet for svindel på 35 prosent. Det betyr neppe at hver tredje nederlender er en sannsynlig svindler, men at dataene systemet er trent på, inneholder en høy andel saker som har vært kategorisert som svindel.
Datasettet er med andre ord skjevt på en eller flere måter. Det er ikke noe problem hvis skjevhetene tas hensyn til på en god måte. Hvor god jobb nederlandske myndigheter har gjort her, er uklart.
Dersom vi endrer kjønn fra mann til kvinne, stiger sannsynligheten for svindel fra 35 prosent til 40 prosent.
Dette gjenspeiler rett og slett at andelen kvinner som er kategorisert som svindlere i datasettet er høyere enn for menn. Endrer vi videre alderen fra 57 (som er gjennomsnittet i datasettet) til 20, stiger sannsynligheten for svindel fra 40 prosent til 56 prosent. Og hvis personen ikke har arbeidserfaring, øker sannsynligheten til 59 prosent.
Det er kanskje ikke så rart at en 20-åring ikke har arbeidserfaring?
Og her er min blindsone: Jeg endra verdiene én og én, men sånn er ikke virkelige personer. Eldre personer har for eksempel typisk mer arbeidserfaring enn yngre personer. Jeg kan med andre ord ha gitt et fortegna bilde av SyRI.
Mer ansvarlig KI
Her kan vi lære av en annen kontroversiell algoritme: For den amerikanske COMPAS-algoritmen (Correctional Offender Management Profiling for Alternative Sanctions) viste det seg at algoritmen kunne bli omtrent like god med kun to av 130 egenskaper.
Forklaringen er korrelasjoner mellom egenskapene – eldre personer har mer arbeidserfaring enn yngre – slik at mange av egenskapene er overflødige.
En del av opplysningene som inngår i SyRI, er svært inngripende eller subjektive. Jeg kan ikke se for meg at det noen gang er aktuelt for norske myndigheter å bruke den typen data for å avsløre eventuelt misbruk av velferdsstaten.
Det betyr ikke at misbruk av velferdsordninger ikke skjer. Og en risikobasert tilnærming er i prinsippet en effektiv måte å avdekke svindel på.
Men en risikobasert tilnærming blir en systemrisiko i seg selv hvis en lager systemer med dampveivals og uten personvernbrillene på, slik som Nederland gjorde med SyRI.