Den store fordelen ved dagens nevrale modeller for maskinoversettelse er at de er ekstremt fleksible. Hvis man har gode nok parallelltekster, er det ingen avgjørende begrensning at to språk har svært ulik ordstilling. Siden modellene lager kontekstavhengige representasjoner av språket, er det også lettere å håndtere problemer som faste uttrykk. Moderne løsninger består dessuten av én enkelt modell, og de er derfor enkle å implementere og distribuere. Løsninger for statistisk maskinoversettelse inneholdt ofte flere komponenter og var ikke like fleksible.
Den største utfordringen er behovet for data. Nevrale nettverk krever på generelt grunnlag store mengder treningsdata, noe som gjør det vanskeligere å bygge gode oversettelsessystemer for språk der dette ikke er lett tilgjengelig. Kvaliteten på systemer som oversetter fra de største språkene, er derfor mye høyere enn for mindre språk. Å bygge gode oversettelsesmodeller for mindre språk er et aktivt forskningsfelt innen språkteknologi, og mye av arbeidet handler om å samle inn gode parallelltekster.
En annen utfordring er hvordan man skal evaluere maskinoversettelse. I de fleste oppgaver der man benytter maskinlæring, vet man hva som er det riktige svaret. Om man lager et system som klassifiserer bilder eller tekst inn i noen forhåndsdefinerte kategorier, for eksempel bilder av katter og hunder, kan man måle nøyaktigheten til systemet ved å telle opp hvor mange ganger det angir feil kategori. Med oversettelse er ikke dette like rett fram, da man kan lage flere oversettelser som er akseptable. Å bruke mennesker til å vurdere kvaliteten er en mulighet, men dette er ofte svært ressurskrevende.
I dag benyttes flere automatiske evalueringsmetoder, deriblant den omdiskuterte BLEU-metoden. Enkelt forklart måler denne i hvilken grad oversettelsen overlapper med en foreslått fasit. Til tross for at den beviselig har flere mangler, og flere har tatt til orde for å forkaste den, er den fortsatt et av de mest brukte målene på hvor god en modell for maskinoversettelse er.
Kommentarer
Kommentarer til artikkelen blir synlig for alle. Ikke skriv inn sensitive opplysninger, for eksempel helseopplysninger. Fagansvarlig eller redaktør svarer når de kan. Det kan ta tid før du får svar.
Du må være logget inn for å kommentere.