Flere stavekontroller tar nå i bruk språkmodeller, både for å identifisere feil og for å korrigere eller foreslå rettelser.
Tilnærminger basert på statistiske språkmodeller anslår en sannsynlighet for at et ord er stavet riktig, gitt de foregående ordene. Sannsynlighetene beregnes fra sekvenser av ord som er observert i store tekstkorpus. Disse sannsynlighetene brukes også til å avgjøre hvilket ord som mest sannsynlig er riktig.
Eksempel: I setningen «Jeg spiser bannan» vil ordet «bannan» bli markert som feilstavet, ettersom ordet sjelden eller aldri har blitt observert i kombinasjon med «spise». Modellen vil kunne foreslå å korrigere stavingen til «banan», ettersom «spise banan» er en vanlig sekvens av ord.
Med utviklingen av dyp læring blir også store språkmodeller brukt i stavekontroller. Disse er basert på avanserte nevrale nettverk som er trent på enorme datamengder hvor modellen lærer i hvilke sammenhenger og kontekster ord brukes. I et stavekontrollsystem vil en stor språkmodell kunne analysere en hel setning eller et helt dokument i prosessen med å identifisere feilstavinger, og modellen vil også kunne gi mer relevante forslag til korreksjoner.
Både store språkmodeller og enklere statistiske språkmodeller utnytter statistiske mønstre i språk, og ved å ta hensyn til både syntaks og semantikk kan de håndtere komplekse setninger og rettegrammatiske feil.
Eksempel: I setningen «Kattene er veldig snill» vil ordet «snill» kunne bli markert som feil av et stavekontrollsystem med en språkmodell, ettersom adjektivet ikke samsvarer med substantivet «kattene».
Videre, i motsetning til regelbaserte og ordbokbaserte metoder, vil språkmodell-baserte stavekontroller i større grad identifisere ord som staves likt som et annet eksisterende ord, men som er feil i den gitte setningen.
Kommentarer
Kommentarer til artikkelen blir synlig for alle. Ikke skriv inn sensitive opplysninger, for eksempel helseopplysninger. Fagansvarlig eller redaktør svarer når de kan. Det kan ta tid før du får svar.
Du må være logget inn for å kommentere.