Sjefsforsker

Pierre Lison

Vis beskrivelsesinformasjon Skjul beskrivelsesinformasjon
  • Sjefsforsker ved Norsk Regnesentral
  • Førsteamanuensis II ved Universitetet i Oslo

OM

Mine viktigste forskningsinteresser ligger innen naturlig språkprosessering (NLP) og maskinlæring, spesielt trening, tilpasning og evaluering av store språkmodeller (LLM-er), samt hvordan disse kan tas i bruk i ulike anvendelser.

I løpet av min forskerkarriere har jeg arbeidet med temaer som talebaserte dialogsystemer, storskala informasjonsuttrekk, personvern i data, nevrale maskinoversettelser og samhandling mellom mennesker og roboter.

Jeg er spesielt opptatt av forskningsspørsmål i skjæringspunktet mellom språkbehandling og andre fagområder – både natur- og samfunnsvitenskapelige. Jeg deltar også i flere forsknings- og utviklingsprosjekter med fokus på innovasjon, hvor vi undersøker hvordan store språkmodeller og maskinlæring kan brukes til å løse praktiske utfordringer i offentlig og privat sektor.

Bakgrunn

Jeg er opprinnelig fra Belgia og ble uteksaminert fra Universitetet i Louvain i 2006 med en grad i informatikk og ingeniørvitenskap. Med økende interesse for koblingen mellom informatikk og språkvitenskap flyttet jeg til Saarbrücken i Tyskland for å ta en mastergrad i språkvitenskap og teknologi. Jeg fullførte graden i 2008 og jobbet deretter som forsker ved det tyske forskningssenteret for kunstig intelligens (DFKI), hvor jeg deltok i flere EU-finansierte prosjekter om utvikling av dialogsystemer for samhandling mellom mennesker og roboter.

I 2011 flyttet jeg til Norge for å ta en doktorgrad i språkgruppa ved Universitetet i Oslo. I 2014 forsvarte jeg doktoravhandlingen min om sannsynlighetsbaserte metoder for dialogstyring, og jobbet deretter i to år som postdoktor i samme gruppe med dialogmodellering for statistisk maskinoversettelse.

I 2016 begynte jeg som forsker ved Norsk Regnesentral, hvor jeg jobber med ulike forsknings- og utviklingsprosjekter innen språkprosessering og maskinlæring. To av mine nyeste prosjekter er CLEANUP, som utviklet datadrevne metoder for å fjerne personopplysninger fra tekstdata, og GraphDial, som handlet om dialogstyring og bruk av kunnskapsgrafer for å representere dialogtilstanden i komplekse samtaledomener. Andre prosjekter jeg har vært involvert i inkluderer SAFERS (taleanalyse for nødetater), DialMT (dialogmodellering for maskinoversettelse), AICOM (språklig analyse av samspill mellom mennesker og store språkmodeller), Oslo Analytics, og nylig CyberRisk (cyber-trusselintelligens og risikostyring).

I tillegg til hovedstillingen som sjefsforsker ved NR har jeg også en bistilling som førsteamanuensis II ved språkgruppa ved Universitetet i Oslo, hvor jeg bidrar i flere kurs innen maskinlæring og naturlig språkprosessering. Jeg har også tidligere vært medlem av Akademiet for yngre forskere.

Prosjekter

  • Maskinlæring
  • Språkteknologi

Anonymisering av tekst (CLEANUP)

  • Maskinlæring
  • Språkteknologi
  • Digital sikkerhet og personvern

Delautomatisering av digital risikostyring

Hvodan tolker vi maskiner som snakker?
  • Maskinlæring

Hvordan forstår vi maskiner som snakker til oss?

Publikasjoner

  • 95 publikasjoner funnet
  • Utgiver

Re-identification of De-identified Documents with Autoregressive Infilling pp. 1192 1209 , doi: https://doi.org/10.18653/v1/2025.acl-long.60 , 2025. Vitenskapelig Kapittel/Artikkel/Konferanseartikkel

Evaluating the disclosure risk of anonymized documents via a machine learning-based re-identification attack Data mining and knowledge discovery, vol. 38, pp. 4040 4075 , (ISSN 1384-5810 1573-756X ), doi: https://doi.org/10.1007/s10618-024-01066-3 , 2024. Vitenskapelig artikkel

Identifying Token-Level Dialectal Features in Social Media , 2023. Vitenskapelig Kapittel/Artikkel/Konferanseartikkel

Generation of Replacement Options in Text Sanitization pp. 292 300 , , 2023. Vitenskapelig Kapittel/Artikkel/Konferanseartikkel

Pierre Lison; Samia Touileb; Chat GPT egner seg dårlig til eksamenssensuren Morgenbladet, (ISSN 0805-3847 0806-2617 ), 2023. Kronikk

Retrieval-Augmented Neural Response Generation Using Logical Reasoning and Relevance Scoring SemDial Proceedings, (ISSN 2308-2275 ), , 2023. Vitenskapelig artikkel

Pierre Lison; Venn med kunstig intelligens 2023. Intervju

Utgiver Norsk Regnesentral

Dialogue Management as Graph Transformations pp. 219 227 , doi: https://doi.org/10.1007/978-981-19-5538-9_15 , 2022. Vitenskapelig Kapittel/Artikkel/Konferanseartikkel

The GDPR and Unstructured Data: Is Anonymisation Possible? International Data Privacy Law (IDPL), vol. 12, pp. 184 206 , (ISSN 2044-3994 2044-4001 ), doi: https://doi.org/10.1093/idpl/ipac008 , 2022. Vitenskapelig artikkel

Dis, c'est quoi l'intelligence artificielle? (ISSN 9782507057299 ), 2022. Populærvitenskapelig bok

Utgiver Renaissance Du Livre

Bootstrapping Text Anonymization Models with Distant Supervision pp. 4477 4487 , , 2022. Vitenskapelig Kapittel/Artikkel/Konferanseartikkel

Automatic Evaluation of Disclosure Risks of Text Anonymization Methods pp. 157 171 , doi: https://doi.org/10.1007/978-3-031-13945-1_12 , 2022. Vitenskapelig Kapittel/Artikkel/Konferanseartikkel

The text anonymization benchmark (TAB): A dedicated corpus and evaluation framework for text anonymization Computational Linguistics, vol. 48, pp. 1053 1101 , (ISSN 0891-2017 1530-9312 ), doi: https://doi.org/10.1162/coli_a_00458 , 2022. Vitenskapelig artikkel

Neural Text Sanitization with Explicit Measures of Privacy Risk pp. 217 229 , , 2022. Vitenskapelig Kapittel/Artikkel/Konferanseartikkel

Hva er universell utforming? 2022. Programdeltagelse

Vi må snakke om Bitcoin , 2021. Kronikk

Welcome to Norway! , 2021. Kronikk

Nicholas Thomas Walker; Torbjørn Dahl; Pierre Lison; Dialogue Management as Graph Transformations 2021. Vitenskapelig foredrag

Fremdrift i forskningsprosjekter 2021. Faglig foredrag

Skweak: Weak Supervision Made Easy for NLP 2021. Vitenskapelig foredrag

Utgiver RobotDial workshop

Assessing the Quality of Human-Generated Summaries with Weakly Supervised Learning pp. 112 123 , , 2021. Vitenskapelig Kapittel/Artikkel/Konferanseartikkel

skweak: Weak Supervision Made Easy for NLP pp. 337 346 , doi: https://doi.org/10.18653/v1/2021.acl-demo.40 , 2021. Vitenskapelig Kapittel/Artikkel/Konferanseartikkel

Pierre Lison; Jeremy Barnes; Aliaksandr Hubin; Samia Touileb; Named Entity Recognition without Labelled Data: A Weak Supervision Approach (ISSN 978-1-950737-48-2 ), 2020. Vitenskapelig antologi/Konferanseserie

Utgiver Association for Computational Linguistics

Named Entity Recognition without Labelled Data: A Weak Supervision Approach pp. 1518 1533 , , 2020. Vitenskapelig Kapittel/Artikkel/Konferanseartikkel

Kan kunstig intelligens "forstå" språk? Aftenposten (morgenutg. : trykt utg.), (ISSN 0804-3116 0807-2027 ), , 2020. Populærvitenskapelig artikkel

Ethical and social impacts of AI 2020. Faglig foredrag

Dialogue Modelling: Small data, Big data 2019. Vitenskapelig foredrag

Open challenges in anonymisation 2019. Faglig foredrag

Tekstmining: En kort innføring , 2018. Faglig foredrag

OpenSubtitles 2018: Statistical rescoring of sentence alignments in large, noisy parallel corpora pp. 1742 1748 , , 2018. Vitenskapelig Kapittel/Artikkel/Konferanseartikkel

Detecting Machine-translated Documents in Large Parallel Corpora pp. 25 32 , , 2018. Vitenskapelig Kapittel/Artikkel/Konferanseartikkel

Utgiver Norsk Regnesentral

Incremental Processing for Neural Conversational Models SemDial Proceedings, pp. 162 163 , (ISSN 2308-2275 ), , 2017. Vitenskapelig artikkel

Automatic Detection of Malware-Generated Domains with Recurrent Neural Models Norsk Informasjonssikkerhetskonferanse (NISK), (ISSN 1893-6563 1894-7735 ), , 2017. Vitenskapelig artikkel

Redefining Context Windows for Word Embedding Models: An Experimental Study pp. 284 288 , , 2017. Vitenskapelig Kapittel/Artikkel/Konferanseartikkel

Neural Reputation Models learned from Passive DNS data pp. 3662 3671 , doi: https://doi.org/10.1109/BigData.2017.8258361 , 2017. Vitenskapelig Kapittel/Artikkel/Konferanseartikkel

Dialogue modelling: small data and large data , 2016. Vitenskapelig foredrag

Automatic Turn Segmentation of Movie and TV Subtitles pp. 245 252 , doi: https://doi.org/10.1109/SLT.2016.7846272 , 2016. Vitenskapelig Kapittel/Artikkel/Konferanseartikkel