Generativ kunstig intelligens konsumerer store mengder data (typisk tekst og bilder), og kan deretter generere ny tekst og bilder, basert på hva brukeren ønsker.

Generativ kunstig intelligens er teknikker innen maskinlæring der målet er å etterligne et datamateriale.

Faktaboks

Etymologi

fra engelsk generative artificial intelligence

Også kjent som

generativ KI, generativ AI, GenAI

Det finnes mange ulike bruksområder for slike modeller, og de mest kjente anvendelsene er chatbots (som for eksempel ChatGPT) og generering av datagrafikk (for eksempel Stable Diffusion, DALL-E og MidJourney). Felles for disse modellene er at de er trent på store mengder data fra internett, og mange av dem overlapper også i metodologi.

Bruksområder

Bilder

Å generere digitale bilder har lang historie innen kunstig intelligens, og strekker seg tilbake til 1960-tallet. Datidens modeller var kraftig begrenset av mangelen på datamateriale og regnekraft, og var derfor ikke spesielt gode.

Genereringen av bilder opplevde en renessanse i 2014 ved hjelp av en teknikk som på engelsk er kjent som Generative Adverserial Networks (GANs). Metodikken er her enkel: man trener en maskinlæringsmodell til å generere bilder (kalt en generator), og en annen modell (for enkelhets skyld kalt «kritikeren») til å skille mellom de genererte bildene og faktiske bilder. Treningen stopper når kritikeren ikke lengre klarer å skille mellom genererte og ekte bilder.

De nyeste modellene for bildegenerering (slik som Stable Diffusion og DALL-E) baserer seg på en teknikk kjent som diffusion, som i motsetning til GANs omformer støy til ferdige bilder ved hjelp av en iterativ prosess. Dette gjøres ved at man først legger til støy på ekte bilder, og ber deretter modellen om å rekonstruere det opprinnelige bildet.

Tekst

Tekstgenerering baserer seg i dag på store språkmodeller. Kort fortalt kan man ved å trene nevrale nettverk til å gjette det neste ordet i en sekvens av foregående ord danne seg en sannsynlighetsfordeling av ord gitt en kontekst. Å bruke slike språkmodeller til å generere tekst skjøt fart på starten av 2000-tallet. Mye av den tidligere bruken fokuserte på maskinoversettelse, der den generative modellen tar inn data på ett språk for så å generere en tilsvarende sekvens på et annet.

Ved å lære slike sammenhenger, kan en modell brukes til å generere tekst til mange ulike formål, for eksempel som kjernen i en chatbot. Det er ingen konseptuell forskjell mellom å oversette for eksempel fra tysk til fransk, og å svare på et spørsmål fra en bruker. Begge problemene kan formuleres som et sekvens-til-sekvens problem og kan følgelig også løses ved hjelp av de samme teknikkene.

Når man i dag benytter seg av språkmodeller gjennom for eksempel chatbots, har utviklerne ofte kombinert språkmodellen med andre teknikker fra maskinlæringsfeltet, slik som forsterket læring. Det brukes enorme ressurser gjennom å bruke mennesker til å konversere med en språkmodell, det vil si å få den til å generere tekst gitt en forespørsel, for så å gi en vurdering på hvorvidt svaret var av god kvalitet. Over tid vil hele systemet lære seg å generere tekst som av brukerne anses som nyttig.

Video og lyd

Teknikkene nevnt ovenfor anvendes også innen video og lyd. Man lærer sammenheng mellom sekvenser, og slik kan man generere video og lyd som ikke er blitt spilt inn av et menneske. Disse er ofte veldig naturtro, men det er fortsatt ofte mulig å merke at noe ikke er ekte.

Hallusinasjoner

En krokodille som spiller fiolin. Dette har aldri funnet sted i virkeligheten, og er et godt eksempel på en hallusinasjon, siden modellen ikke forstår at krokodiller ikke kan spille fiolin. Google sin Gemini-modell fikk spørsmålet: "create an image of a crocodile playing a violin".

Generative maskinlæringsmodeller deler mange av de samme utfordringene som andre teknikker fra det brede feltet kunstig intelligens. De har ingen forståelse av verden, og de vet kun hvilke ord eller bilder som har størst sannsynlighet gitt en kontekst, basert på hva de opprinnelig er trent på.

Når en modell genererer noe som ikke stemmer med virkeligheten, kalles det for hallusinasjoner. Dette får ofte uforutsigbare konsekvenser som det er vanskelig for utviklerne å forutse. Det er derfor viktig å verifisere hva disse modellene genererer.

Andre utfordringer

Disse modellene bruker enormt med energi for å bli trent opp og for å kunne anvendes. I tillegg er prinsippet nevnt ovenfor (forsterket læring ved bruk av mennesker) kun tilgjengelig for aktører med sterke finansielle muskler.

Det er også knyttet politiske og etiske utfordringer til generativ kunstig intelligens. For eksempel muliggjør modellene å spre misinformasjon på en industriell skala, siden det ofte er vanskelig å skille mellom hva som er produsert av en maskin og hva som er produsert av et menneske. Kildekritikk er med andre ord viktigere enn noen gang.

Les mer i Store norske leksikon

Kommentarer

Kommentarer til artikkelen blir synlig for alle. Ikke skriv inn sensitive opplysninger, for eksempel helseopplysninger. Fagansvarlig eller redaktør svarer når de kan. Det kan ta tid før du får svar.

Du må være logget inn for å kommentere.

eller registrer deg