Publication details
- Publisher: Norsk Regnesentral
- Series: NR-notat (SAMBA/18/24)
- Year: 2024
- Issue: SAMBA/18/24
- Number of pages: 37
Statistisk sentralbyrå (SSB) publiserer månedlig statistikk over utenrikshandel med varer (UHV). Formålet med statistikken er å gi en oversikt over varestrømmene mellom Norge og utlandet. Eksport og import av varer er sentrale størrelser i det samfunnsøkonomiske bildet, og følgelig er det viktig at statistikken som
publiseres er presis.
Norsk Regnesentral (NR) har analysert tolldata på import av varer fra TollVesenets
INformasjonssystem med Næringslivet (TVINN). Alle importerte varer registreres gjennom en varelinje, med et varenummer som beskriver varetypen fra Tolltariffen, og feil varenummer er en vanlig feiltype. I en del tilfeller innebærer en slik feilregistrering manglende samsvar mellom varenummer og varebeskrivelsen.
I dette prosjektet har vi brukt en språkmodell til å innkode varebeskrivelsen, et fritekstfelt, for så å predikere varenummeret til en varelinje ved hjelp av logistisk regresjon. I tillegg har vi eksperimentert med å bruke gradientforsterkede tremodeller til samme formål, basert på andre felt fra hver varelinje. Disse modellene er trent på varelinjer fra enten 2017 - 2021, eller 2020 - 2023, som er kontrollert og har fått varenummeret sitt korrigert.
Ved å teste modellene på uavhengige testdata fra 2024, finner vi at modellene tilpasset varebeskrivelsene oppnår en rimelig høy treffsikkerhet, med en treffsikkerhet på ca. 65% for tekstmodellen tilpasset varelinjer fra perioden 2020 - 2023, evaluert på litt over 24 tusen korrigerte varelinjer. De gradientforsterkede tremodellene har ikke oppnådd tilsvarende ytelse, med en maksimal treffsikkerhet på ca. 11%, antageligvis
delvis grunnet overtilpasning til treningsdataene.