Norsk forskningsinfrastruktur for nettdata (WebData)

Siden slutten av 1990-årene har Nasjonalbiblioteket systematisk samlet inn materiale fra det norske internett, og skapt et omfattende digitalt arkiv. Til tross for omfanget og verdien av denne samlingen, har forskere så langt ikke hatt tilgang til materialet på grunn av strenge regler for håndtering av personopplysninger i nettarkiver.

WebData-prosjektet har som mål å etablere en nasjonal plattform for forskning på ulike typer internettdata, inkludert tekst, lyd, video og bilde. Denne infrastrukturen vil gi brukere sikker tilgang til nettbasert materiale for akademisk og samfunnsmessig forskning, samtidig som personvern og opphavsrett nøye ivaretas.

Ettersom mye av den offentlige diskusjonen foregår på nettet, og store mengder data er avgjørende for utvikling av AI-systemer, har behovet for tilgang til dette digitale nettarkivet blitt stadig viktigere.

Forskning på norsk og samisk språk og kultur

Et sentralt mål for WebData er å fremme forskning på norsk og samisk språk og kultur, og å styrke utviklingen av språkteknologi for disse språkene. Prosjektet vil bygge omfattende nettbaserte korpora for bokmål, nynorsk og samisk, som kan brukes blant annet for å trene store språkmodeller. Disse korporaene vil bli automatisk merket for ulike språklige aspekter, for eksempel navn på personer og organisasjoner som nevnes, hendelser og sentiment.

Prosjektet vil også utvikle en prosess for automatisk klassifisering av dokumenter som inneholder personopplysninger og avidentifisere disse effektivt. I tillegg vil WebData undersøke hvor godt samisk språkinnhold er representert i nettarkivet, og iverksette tiltak for å øke innsamlingen av samisk materiale. Plattformen vil bli utviklet i tett samarbeid med forskningsmiljøet gjennom behovskartlegginger og brukerevalueringer.

NR vil hovedsakelig bidra med:

– å hente ut ren tekst fra vanlige dataformater på nettet (nettsider, PDF-er osv.) og automatisk legge til disse metadatainformasjon (f.eks. forfatter, dato, tema, tekstkvalitet);

– utvikling av effektive metoder for å identifisere og beskytte personopplysninger automatisk;

– tilpasning av metodene for metadatauttrekk og hantering av personopplysninger ovenfor til transkripsjoner fra lyddata.

Ved å gjøre nettbasert materiale tilgjengelig for analyse, vil prosjektet muliggjøre forskning på temaer som valg, demokrati, mediedynamikk, ytringsfrihet og nye utfordringer for demokratiske institusjoner i internettalderen. På denne måten åpner WebData for nye muligheter til å forstå hvordan digitaliseringen har påvirket den norske offentlige sfæren.

Nettarkivet vil også være en verdifull ressurs for opplæring av språkmodeller, og bidra til en bedre representasjon av norsk og samisk språk og kultur i slike modeller.

Vil du vite mer om dette prosjektet?

Ta kontakt:

Prosjekt: Norsk forskningsinfrastruktur for nettdata (WebData)

Partnere: Nasjonalbiblioteket, Universitetet i Oslo og Universitetet i Tromsø – Norges arktiske universitet

Finansiering: Forskningsrådet

Periode: 2025 – 2029

Prosjektet hjemmeside:

https://webdata.nb.no/