statistisk maskinoversettelse – Store norske leksikon

Statistisk maskinoversettelse er modellerings- og analysemetoder for maskinoversettelse av tekst fra ett språk til et annet.

Den største fordelen med disse metodene er at de i hovedsak tar utgangspunkt i virkelige tekster. De kan derfor få frem språklige nyanser som er vanskelig å fange opp med rene regelbaserte metoder.

Grunnmetode

Metodene tar utgangspunkt i parallelltekster, det vil si tekster som er oversatt til flere språk, for eksempel bøker, offentlige dokumenter og lignende.

I tillegg til tekster, kan man benytte crowdsourcing hvor deltakere som behersker flere språk blir invitert til å bidra med nye oversettelser, påpeke feil og så videre.

Ved å sammenligne ordsekvenser som befinner seg på samme sted i slike tekster, kan man bygge opp en oversikt over enkeltord, fraser og setninger som sannsynligvis har samme betydning i forskjellige språk.

Tabellen nedenfor illustrerer hvordan en slik oversikt kan se ut. Den angir forekomster av fraser på norsk og engelsk som er funnet på samme sted i ulike parallelltekster. For eksempel er det 15 tilfeller hvor frasen «jeg elsker deg» har samsvart med «I love you», mens frasene «Jeg elsker deg» og «I adore you» har blitt funnet på samme sted seks ganger.

Antall	Norsk	Engelsk
15	jeg elsker deg	I love you
6	jeg elsker deg	I adore you
4	jeg elsker deg	I am fond of you
7	jeg er glad i deg	I love you
10	jeg er glad i deg	I adore you
14	jeg er glad i deg	I am fond of you
7	jeg liker deg	I love you
12	jeg liker deg	I adore you
13	jeg liker deg	I am fond of you

Oversettingen gjennomføres ved at man velger alle par som inneholder ordsekvensen man skal oversette fra i tabellen. Så henter man oversettelsen fra det paret som forekommer flest ganger blant disse.

Ut fra forekomstene i tabellen ovenfor vil for eksempel setningen «jeg liker deg» bli oversatt til «I am fond of you» (13 av totalt 32 forekomster), mens «I am fond of you» vil bli oversatt til «Jeg er glad i deg» (14 av 31 forekomster).

Matematisk beskrivelse av metoden

Når disse metodene skal beskrives matematisk er det, av historiske årsaker, vanlig å bruke bokstaven 'e' (engelsk) om det språket man oversetter til, mens språket man oversetter fra angis med bokstaven 'f' (fransk).

Oversikten gir oss informasjon om forekomsten av samhørende ordsekvenser i to språk. Formelt er vi ute etter den verdien av e som har høyest P(e | f), det vil si høyest «sannsynlighet for e, gitt f». Dette beregner vi ved å dividere antallet observerte par: C(e, f) med antall observerte f-er: C(f).

Sannsynligheten for at setningen «jeg liker deg» betyr det samme som «I am fond of you» blir dermed beregnet til 13/32 = ca. 41 prosent.

Derivater, oversettelsesmodeller og språkmodeller

Metoden ovenfor vil fungere i teorien. Problemet er at det i praksis er umulig å bygge opp tilstrekkelig komplette sett av sekvenser. De fleste språk består av flere hundre tusen ord som kan kombineres på svært mange måter. Derfor vil det alltid være sekvenser som ikke finnes i tekstmaterialet som er tilgjengelig.

Når sekvensen i språket vi oversetter fra ikke finnes i oversikten, vil metoden bryte sammen fordi det blir umulig å finne frem til en sannsynlig oversettelse.

For å unngå dette problemet, utvikler vi regler og analysemetoder som gjør det mulig beskrive å ordsekvenser i form av avledede egenskaper, for eksempel antall ord, forekomsten av bestemte typer ord i bestemte posisjoner og så videre. Dette kalles for derivater.

I stedet for observerte fra-til sekvenser, lager man en oversikt som viser hvor mange ganger slike egenskaper i fra-språk er observert sammen med ordsekvenser i til-språk. Dette kalles for oversettelsesmodeller.

Informasjon om frasen «jeg elsker deg» i den opprinnelige tabellen kan for eksempel representeres på denne måten:

Norsk	Engelsk
jeg elsker deg	Starter med "I", inneholder "love", lengde: 3 ord
jeg elsker deg	Starter med "I", inneholder "fond of", lengde: 5 ord
jeg elsker deg	Starter med "I", inneholder "adore", lengde: 3 ord

I tillegg trenger vi en språkmodell, det vil si en oversikt over hvor ofte hver enkelt sekvens i til-språket forekommer i tekstmaterialet. Informasjonen i den opprinnelige tabellen vil bli representert slik:

Antall	Norsk
25	Jeg elsker deg
31	Jeg er glad i deg
32	Jeg liker deg

Selve oversettelsen gjennomføres i fire steg:

Først finner man derivatene til fra-sekvensen.
Deretter benytter man oversettelsesmodellen til å beregne graden av samsvar mellom fra-sekvensen og alle tilgjengelige sekvenser i til-språket.
Så benytter man språkmodellen til å vekte graden av samsvar med antall forekomster av sekvenser i til-språket.
Til slutt velger den sekvensen hvor samsvarsgraden multiplisert med antall forekomster er høyest.

Metodiske utfordringer

Statistisk maskinoversettelse er et komplisert felt som neppe vil bli ferdigutforsket. Til det er det for mange språk med forskjellig struktur og ulikt meningsinnhold. To viktige utfordringene er:

Hvordan tekster skal splittes opp i ordsekvenser. Målsettingen er å bryte dem opp i veldefinerte, meningsbærende enheter som så kan sammenlignes på tvers av språk.
Hvordan man skal definere avledede egenskaper i et gitt språk. Målsettingen er at to ordsekvenser med samme mening også skal ha de samme egenskapene.

Les mer i Store norske leksikon

maskinoversettelse

Litteratur

Statistical Machine Translation. Adam Lopez, ACM Computing Surveys, 2008

Kommentarer

Kommentarer til artikkelen blir synlig for alle. Ikke skriv inn sensitive opplysninger, for eksempel helseopplysninger. Fagansvarlig eller redaktør svarer når de kan. Det kan ta tid før du får svar.

Du må være logget inn for å kommentere.

Fagansvarlig for Språkteknologi

Sondre Wold

Stipendiat, Universitetet i Oslo