En språkmodell er en statistisk modell av et språk som brukes innen språkteknologi. Modellen gir en sannsynlighetsfordeling over sekvenser av ord og kan derfor brukes til å analysere og generere tekst basert på naturlige språk, slik som norsk. Språkmodeller er en viktig del av løsninger for chatbots, maskinoversettelse, talegjenkjenning, dialogsystemer og tekstklassifisering.

Det finnes både enkle og mer avanserte språkmodeller. De enkle bruker frekvensbaserte tilnærminger, mens de mer avanserte bruker maskinlæringsteknikker.

Klassiske språkmodeller

Klassiske språkmodeller baserer seg som regel på statistikk over ordforekomster i et tekstkorpus. En mye brukt metode er n-gram-modeller. Disse anslår sannsynligheten for et ord basert på forekomsten av de n foregående ordene i teksten.

Det å beregne sannsynligheten for en gitt setning, basert på ord som kommer rett foran et annet ord, kalles en bigram modell. Her er altså n lik 2. Eksempel: For å finne sannsynligheten for setningen «Det er fint vær i dag», teller man opp hvor mange ganger «er» kommer etter «det» i tekstkorpuset, hvor ofte «fint» kommer etter «er», hvor mange ganger «vær» kommer etter «fint» og så videre. Deretter deles disse frekvensene på hvor ofte hvert av ordene forekommer alene. Dette gir sannsynligheter for ordpar som kan ganges sammen for å få sannsynligheten for hele setningen.

Den største fordelen med klassiske språkmodeller er at de er enkle å implementere og forstå. De kan også være effektive for enkle tekstbehandlingsoppgaver og krever ikke alltid store mengder treningsdata. De har derimot begrensninger når det gjelder å fange opp mer komplekse språklige nyanser, og defor er de ikke like mye brukt som mer moderne tilnærminger basert på maskinlæring.

Nyere språkmodeller

Med fremveksten av dyplæring og store mengder tilgjengelige data, som oftest fra internett, har moderne språkmodeller basert på maskinlæring blitt den vanligste måten å modellere språk på. I stedet for å telle forekomster av ordkombinasjoner eksplisitt, bruker man i dag nevrale nettverk for å lære sammenhengen mellom ord implisitt.

Oppgaven nettverket får, er typisk å gjette neste ord gitt en foregående sekvens. Til å begynne med vil modellen gjette helt tilfeldig, men etter hvert som den har gjettet nok ganger, og har sett enormt store tekstmengder, vil den begynne å danne seg et godt bilde av hva som typisk følger en gitt kontekst. Denne typen modellering er kjent som autoregressiv språkmodellering, og det er vanligvis dette som ligger til grunn for de mest allment kjente språkmodellene, som for eksempel de vi finner i chatbots.

Moderne språkmodeller basert på maskinlæring har mange fordeler. De har evnen til å fange opp komplekse språklige nyanser fra store mengder data, og de kan generere tekst som er sammenhengende og virker naturlig. De kan også tilpasses til ulike språk og domener. Imidlertid krever de også store mengder data, og de er ofte komplekse å implementere og forstå.

Anvendelser

Noen typiske anvendelser av språkmodeller er:

  • Autokorrektur: Språkmodeller brukes i autokorreksjonsverktøy ved å påpeke og eller korrigere skrivefeil. Språkmodellene kan analysere teksten og foreslå korrekte ord og setninger basert på sannsynlighetsfordelingen de har lært fra store mengder tekstdata.
  • Dialogsystemer: Språkmodeller brukes i dialogsystemer der de kan prosessere og generere tekst for å kommunisere med brukere. Eksempler på dette kan være chatbots, virtuelle assistenter og kundeserviceapplikasjoner.
  • Maskinoversettelse: Språkmodeller brukes ofte i maskinoversettelsesteknologi for å oversette tekst fra ett språk til et annet. Hvor god modellen er for et gitt språk, avhenger i stor grad av hvor mye data som er tilgjengelig for det enkelte språket.
  • Talegjenkjenning: Språkmodeller brukes også i talegjenkjenningsteknologi for å konvertere tale til tekst. Ved å trene modeller på store mengder taledata, kan de lære å gjenkjenne og transkribere tale på en måte som er nyttig i applikasjoner som talestyrte assistenter og transkriberingstjenester.

Fordeler og ulemper

Språkmodeller gjør det mulig å automatisere komplekse språkbehandlingsoppgaver, forbedre effektiviteten i ulike tekstrelaterte applikasjoner og bidra til økt produktivitet. De har imidlertid også klare begrensninger og utfordringer. Siden internett er den mest tilgjengelige tekstkilden av stor nok størrelse, spesielt for moderne språkmodeller, er det ofte tekst herfra som er den primære datakilden i opptreningen av modellene. Denne datainnsamlingen kan være problematisk på flere måter og stiller krav til overholdelse av både personvern og opphavsrett.

Dagens språkmodeller er også kjent for å gjengi upassende innhold, produsere tekst som kan virke støtende og å fremvise skjevhet med tanke på kjønn, etnisitet og religion. Språkmodeller utgjør videre en utfordring når det kommer til troverdighet og kildekritikk fordi tekstene som genereres ofte virker troverdig til tross for at de kan inneholde flere faktafeil og forenklinger.

Les mer i Store norske leksikon

Kommentarer

Kommentarer til artikkelen blir synlig for alle. Ikke skriv inn sensitive opplysninger, for eksempel helseopplysninger. Fagansvarlig eller redaktør svarer når de kan. Det kan ta tid før du får svar.

Du må være logget inn for å kommentere.

eller registrer deg