Publication details
- Event: (Arendal)
Syntetiske data er kunstig genererte data laget ved hjelp av algoritmer, statistiske modeller og kunstig intelligens (KI), som Chat-GPT. Syntetiske data er utformet for å etterligne reelle data ved å gjengi deres statistiske egenskaper, men er ikke direkte kopier eller tilfeldig støy. Behovet for syntetiske data i KI-utvikling oppstår fra mangelen på tilgjengelige, rene, private og varierte reelle data av høy kvalitet, som er nødvendige for å trene KI-modeller. Syntetiske data kan utvide eksisterende datasett, sikre privacy, fjerne skjevheter og bidra til rettferdighet i KI-systemer. Imidlertid kan bruken av syntetiske data føre til "modellkollaps". Dette skjer når KI-modeller trenes mer på syntetiske data de selv genererer. Denne prosessen kan redusere modellens evne til å forstå og gjengi virkeligheten, ettersom de gradvis glemmer de opprinnelige reelle dataene. Derfor er det avgjørende at KI-modeller både trenes på reelle og syntetiske data for å sikre at læringen av KI-modeller opprettholdes over tid.