Talegjenkjenning er bruk av datamaskiner til å gjenkjenne tale, for eksempel for å styre apper eller maskiner, eller for å gjøre det mulig å skrive tekstdokumenter uten å bruke tastatur.

Bruk

Taleteknologi har blitt et nyttig hjelpemiddel som gjør smarttelefoner og smarthøyttalere enklere å bruke. Med mobiltelefoner med stemmestyring kan man si navnet på den man vil ringe til i stedet for å finne personen i kontaktlisten. Navigasjonssystemer i biler er også i økende grad utstyrt med taleteknologi.

Applikasjoner tilpasset spesielle yrkesgrupper, særlig leger og jurister, gjør også bruk av talegjenkjenning. Teknologien er også nyttig for mennesker med funksjonsnedsettelse som gjør det vanskelig å bruke et tastatur.

Talegjenkjenning byr på teknologiske utfordringer, og systemer for å diktere tekstdokumenter til et datasystem har hittil bare vist seg å være hensiktsmessige å bruke i helt bestemte faglige sammenhenger. Ved flere norske sykehus brukes for eksempel et system der spesialister fortløpende kan beskrive et røntgenbilde, og der det de taler inn, straks registreres i pasientens journal. Slike fagsystemer har et begrenset ordforråd, og kan ikke brukes til andre anvendelser enn den de spesifikt er laget for. De må også «læres opp» hver gang de får en ny bruker: Det gjøres ved at den nye brukeren taler inn en typisk tekst, med ord og uttrykk som systemet er nødt til å kunne forstå. Når dette er gjort, har systemene stor treffsikkerhet, også uavhengig av hvilken dialekt brukeren snakker.

En annen bruk av talegjenkjenning er til å styre datasystemer ved hjelp av tale over telefon, for eksempel i kundestøttesystemer for banker, forsikringsselskaper og lignende. Slike systemer har vanligvis et begrenset sett med alternative ord for hvert spørsmål datasystemet stiller, helt til det er hensiktsmessig å la innringeren tale med en bestemt person.

Stemmen er tilstrekkelig personlig til at den skal kunne brukes til å identifisere brukeren, og taleteknologi er dermed en kandidat til løsninger for såkalt biometrisk autentisering.

Virkemåte

Oppgaven å kjenne igjen tale kan sees på som oversettelse av én type sekvens, nemlig lyd, til en annen type sekvens, tekst. Dette har mye til felles med andre problemer fra språkteknologien, for eksempel maskinoversettelse. I stedet for å oversette fra et språk til et annet, ønsker man å oversette lydsignaler til tekst.

Med fremveksten av maskinlæring, og da spesielt språkmodeller, har man utviklet et rammeverk og et sett med teknikker for hvordan man skal løse slike problemer. Disse baserer seg som regel på to steg.

Først ønsker man å lage en representasjon av lydsekvensene (taledata), en såkalt encoding. Deretter ønsker man å lære hvordan en slik representasjon svarer til en tekstsekvens, såkalt decoding. Dette kan læres ved at man samler store mengder av tale som allerede er paret med tilsvarende tekst, for eksempel fra transkriberte taler. Disse parene kan brukes til å lære et datasystem hva som er en god representasjon og hva som ikke er det. Har man nok slike par, vil systemet etterhvert utvikle seg til en god oversettter mellom lyd og tekst.

Gitt et ferdigtrent system og en lydsekvens som inndata, for eksempel signalet «jæi spiser jærne», kan systemet, basert på tidligere kjente lyd–tekst-par, gjenkjenne dette som setningen «jeg spiser gjerne» og ikke «jeg spiser hjerne», da sistnevnte er mindre sannsynlig gitt treningsdataen. Om den foregående setningen hadde vært «jeg er en zombie», ville muligens sannsynligheten for den andre oversettelsen vært større. Dette betyr at hvor godt et system for talegjenkjenning fungerer avhenger av mengden data systemet er trent på og hvilke kombinasjoner av lydsignaler og tekst som har vært inkludert.

Les mer i Store norske leksikon

Kommentarer

Kommentarer til artikkelen blir synlig for alle. Ikke skriv inn sensitive opplysninger, for eksempel helseopplysninger. Fagansvarlig eller redaktør svarer når de kan. Det kan ta tid før du får svar.

Du må være logget inn for å kommentere.

eller registrer deg