Går tom for treningsdata: — Snart er alt syntetisk

Snart blir robotene trent opp av andre roboter, men kan de unngå modellkollaps? (Bilde: Radio Saigón, (CC BY 2.0.)
Nå som generative AI-er har skrapt opp hele nettet, er de i ferd med å gå tom for treningsdata, og mye av det nye er generert av kunstige intelligens selv.

Dette har en del åpenbare farer, ettersom AI-er har en tendens til lemfeldig omgang med fakta og ofte «hallisunerer» — men det finnes en del spesialiserte firmaer der ute som tilbyr “syntetisk” AI-til-AI-trening.

Samtidig hevder en ny rapport at kvaliteten på ChatGPT har sunket merkverdig de siste månedene.

Tidligere i sommer kom det en forskningsrapport som beskrev «modellkollaps,» som er det som skjer når kunstige intelligenser trener på stadig mer degenererende innhold.

Det fører til at faktaene og hallusinasjonene forplanter seg gjennom treningsdataene og så til produksjonen til «intelligenser» og fører til stadig dårligere svar.

Synkende ytelse i ChatGPT
I følge ny forskning kan det allerede være tegn til dette i de siste versjonene av ChatGPT.

Denne viser at modellen har blitt stadig verre på å identifisere primtall, løse matteproblemer og å svare på sensitive spørsmål.

Dette skal bekrefte flere anekdotiske klager om ChatGPTs forfall, på forskjellige Internettforaer.

Trenger ikke være modellkollaps
Det er imidlertid ikke nødvendigvis modellkollaps som er årsaken til dette, det kan også være at OpenAI «distillerer» modellen for å bruke mindre prosessorkraft og øke farten, eller det kan være at de tilpasser modellen for å redusere skadelige svar.

OpenAI sier selv at de er klar over den nye forskningen og at de følger med på rapporter om redusert ytelse i ChatGPT 4:

— Teamet er klar over de rapporterte regresjonene, og ser nærmere på det, tweetet OpenAIs sjef for utviklerrelasjoner, Logan Kilpatrick.

Går tom for treningsmateriale
Det er likevel et problem at kunstige intelligenser er i ferd med å gå tom for treningsdata, etter å ha skrapt opp mesteparten av det publiserte materialet fra Internett og andre kilder.

Løsningen på dette skal være å trene opp språkmodellene på spesialiserte data produsert av andre modeller, altså AI-til-AI-opplæring basert på «syntetiske» samtaler mellom modeller;

— Nokså sikker på at all data snart vil være syntetisk data, sa Sam Altman i mai, i følge Financial Times.

For å bli enda bedre enn de er nå, trenger nemlig generativ AI mer spesialert informasjon, ikke bare generelt tullball og nyheter fra nettet.

Trenger ekspert-innhold
Behovet er for innhold fra eksperter som vitenskapsfolk, leger og ingeniører, eller innhold fra legemiddelinstrien, banker eller for eksempel detaljhandelen.

Men menneskeskapt ekspertise kan være veldig dyrt; og det er her «syntetisk» data kommer inn i bildet.

Ett tilfelle kan for eksempel være en en diskusjon mellom to AI-modeller som diskuterer trigonometri, der samtalen blir brukt til å trene opp en tredje modell.

Andre tilfeller kan være for banker som trenger å forstå uventede markedshendelser, og her kan to modeller undersøke disse tusenvis av ganger, sondere ut forskjellige utfall fra mange forskjellige vinkler — og bedre spå utfallet av dem.

Dette kan så brukes til å trene nye modeller, altså maskinlært maskinlæringsdata, og kunstige intelligenser som trener kunstige intelligenser.

Det er imidlertid uklart hvordan man kan unngå modellkollaps hvis dette ikke gjennomgås nøye av mennesker på forhånd, som vil si at man fortsatt vil trenge eksperter til å dobbeltsjekke produksjonen i disse scenariene.

Les også: Hva skjer når AI spiser seg selv?, Forfattere til AI-sjefene: Slutt å bruke stoffet vårt uten tillatelse

Les mer: Ars Techica: ChatGPT-ytelsen faller, Financial Times: AI trener AI.