Nettet flommer over av ChatGPT — men hva skjer når den spiser seg selv?

Generativ AI vil degenerere raskt hvis den trenes på eget materiale, viser ny forskning. (Bilde: David J, CC BY 2.0.)
GhatGPT-generert innhold har inntatt alt fra anbefalinger på Etsy og Amazon til bestselgerlistene for bøker samme sted.

Innhold som dette vil etter hvert overta fra menneskeskapt stoff på nettet, frykter James Vincent fra The Verge.

Spørsmålet er bare: Hva skjer når generativ AI fôrer på sitt eget stoff?

Når modeller trener på eget stoff
I følge ny forskning fra Oxford, Cambridge og andre, vil modeller som trenes på genererte data raskt degenerere til et nivå der den originale, menneskeskapte treningen blir glemt — og alt som da er igjen er enda mer feilaktig, usammenhengende rør.

— Over tid vil feiltakelser i generert data sammensettes, og vil tvinge modeller som lærer fra generert data til å feiltolke virkeligheten enda mer, skriver en av rapportens forfattere, Ilia Shumailov fra University of Oxford, til VentureBeat.

— Vi ble overrasket av å observere hvor raskt modellkollapsen skjer: Modeller kan fort glemme den originale dataen som de i utganspunktet lærte fra, legger hun til.

Utsletter minoriteter
Modellkollaps er ordet på det som skjer når en maksinlæringsmodell som ChatGPT begynner å lære av data som den selv har generert, og hvis den skal fortsette å trene på det åpne nettet som etter hvert oversvømmes av generert informasjon — er det nettopp det som skjer.

Shumailov bruker et eksempel om en modell som trenes opp på 100 bilder av katter, der ti katter har blå pels, mens 90 er gule. Etter hvert vil modellen begynne å presentere blå katter som stadig mer gule, siden de favoriserer popularitet.

Dette vil først produsere en del grønne katter, men etter hvert i treningssyklusene forsvinner de blå kattene fullstendig og alle kattene blir presentert som gule.

Internett fylles opp med Blah
— Akkurat som vi har fylt opp havene med plastikk-søppel er vi i ferd med å fylle opp Internet med Blah, skriver Ross Anderson i en blogg. Han er medforfatter og professor ved Cambridge University og University of Edinburgh.

Det tar bare noen få generasjoner før teskten blir til vrøvl, som vist her i forskningsrapporten.

Forskningen i rapporten viser at det bare tar noen generasjoner med degererende trening før teksten blir til søppel, skriver han, og sammenligner ChatGPT med et utydelig JPG-bilde av all teksten på Internett, som blir mer utydelig for hver versjon.

Rapporten finner også at modelkollaps er et universelt fenomen, som ikke bre nøyer seg med tekst eller enkelte modeller, men også gjelder og alle andre generative modeller.

En av mulighetene for å unngå dette, er å for eksempel tråle The Internet Archives istedenfor det åpne nettet, ettersom de har data fra før tidsperioden til generativ AI — og også der har de blitt overmannet av skrapingsroboter.

Les mer: Selve rapporten, VentureBeat, Ross Anderson og The Verge.