Stavekontroll er et dataverktøy som markerer feilstavede ord i et tekstdokument. Mange programmer, for eksempel tekstbehandlere, tilbyr stavekontroll som en integrert del, men det finnes også stavekontroller som er egne, separate programmer.

Faktaboks

Også kjent som

retteprogram, automatisk korrektur, grammatikkontroll

engelsk: autocorrect, spell checker

Mange stavekontroller gir forslag til riktig stavemåte. Disse kan være interaktive, hvor feilstavede ord blir markert og brukeren blir presentert med ett eller flere forslag. Andre systemer tilbyr automatisk retting, hvor feilstavede ord blir direkte endret av programmet uten påvirkning fra brukeren.

Stavekontroll brukes særlig i tekstbehandlingsverktøyer, tekstmeldinger og søkemotorer.

Virkemåte

Tradisjonelle stavekontroller bruker ordbøker eller grammatiske regler for å identifisere feilstavede ord. Nyere systemer tar ofte i bruk språkmodeller som i større grad kan ta hensyn til resten av setningen, og som også kan markere grammatiske feil.

I praksis benytter flere stavekontrollverktøy seg av en kombinasjon av flere ulike metoder.

Ordbokbasert stavekontroll

Tradisjonelle stavekontroller baserer seg på lange lister av riktig stavede ord, for eksempel en ordbok, for å kunne finne feilstavede ord.

En stavekontroll basert på ordbøker vil finne feil på følgende måte:

  1. Først vil den skanne hvert ord i en setning.
  2. Deretter vil den sammenlikne hvert ord med ordene i ordboka.
  3. Til slutt vil den vil den markere et ord som feilstavet hvis ordet ikke finnes i ordboka.

De fleste stavekontroller vil inkludere et oppslag i en fullformsliste for å vurdere ulike former av ordet, for eksempel bøyde former. For å finne riktig staving av et feilstavet ord, kan verktøyet bruke en liste av vanlige stavefeil sammen med forslag til riktig staving.

En mer utbredt metode for å finne riktig staving er å beregne endringsdistansen fra det feilstavede ordet til ord i ordbokslisten. Endringsdistansen er et mål på hvor like to ord er, basert på hvor mange operasjoner som kreves for å gjøre de to ordene like. Disse operasjonene inkluderer innsetting, sletting eller erstatning av et tegn. De to vanligste endringsdistansene er Levenshtein-distanse og Damerau–Levenshtein-distanse.

Den største fordelen med ordbokbaserte metoder er at de er enkle og raske, siden de bare må sammenligne ordene mot en statisk liste av ord. Hurtigheten forutsetter effektive algoritmer for oppslag i ordlista, spesielt hvis stavekontrollen tilbyr forslag til riktig staving. På den andre siden vil denne metoden slite med å fange opp ord som er stavet riktig, men brukt i feil sammenheng eller med feil betydning, ettersom bare ett ord av gangen vil bli sjekket i isolasjon. Eksempel: I setningen «Sola gjør meg bli» er ordet «blid» feilstavet, men dette vil ikke bli markert av en ren ordbokdrevet stavekontroll, ettersom ordet «bli» eksisterer i ordboka med en annen betydning.

Regelbasert stavekontroll

Regelbasert stavekontroll bruker et sett med grammatiske regler og morfologiske analysemetoder for å identifisere og korrigere feilstavede ord. Reglene er forhåndsskrevne og språkspesifikke, og de kan beskrive blant annet hva som er gyldige bøyninger og ordformer.

Denne tilnærmingen er nøyaktig og presis når det kommer til å håndtere kjente stavefeil, eller stavefeil relatert til tekniske restriksjoner, som å å bytte ut en bokstav med en som står ved siden av på tastaturet. På den annen side vil stavekontrollen være begrenset til de reglene som er definert. Den kan mangle fleksibilitet i håndteringen av unntak eller uvanlige tilfeller som ikke er dekket av reglene.

Språkmodellbasert stavekontroll

Flere stavekontroller tar nå i bruk språkmodeller, både for å identifisere feil og for å korrigere eller foreslå rettelser.

Tilnærminger basert på statistiske språkmodeller anslår en sannsynlighet for at et ord er stavet riktig, gitt de foregående ordene. Sannsynlighetene beregnes fra sekvenser av ord som er observert i store tekstkorpus. Disse sannsynlighetene brukes også til å avgjøre hvilket ord som mest sannsynlig er riktig.

Eksempel: I setningen «Jeg spiser bannan» vil ordet «bannan» bli markert som feilstavet, ettersom ordet sjelden eller aldri har blitt observert i kombinasjon med «spise». Modellen vil kunne foreslå å korrigere stavingen til «banan», ettersom «spise banan» er en vanlig sekvens av ord.

Med utviklingen av dyp læring blir også store språkmodeller brukt i stavekontroller. Disse er basert på avanserte nevrale nettverk som er trent på enorme datamengder hvor modellen lærer i hvilke sammenhenger og kontekster ord brukes. I et stavekontrollsystem vil en stor språkmodell kunne analysere en hel setning eller et helt dokument i prosessen med å identifisere feilstavinger, og modellen vil også kunne gi mer relevante forslag til korreksjoner.

Både store språkmodeller og enklere statistiske språkmodeller utnytter statistiske mønstre i språk, og ved å ta hensyn til både syntaks og semantikk kan de håndtere komplekse setninger og rettegrammatiske feil.

Eksempel: I setningen «Kattene er veldig snill» vil ordet «snill» kunne bli markert som feil av et stavekontrollsystem med en språkmodell, ettersom adjektivet ikke samsvarer med substantivet «kattene».

Videre, i motsetning til regelbaserte og ordbokbaserte metoder, vil språkmodell-baserte stavekontroller i større grad identifisere ord som staves likt som et annet eksisterende ord, men som er feil i den gitte setningen.

Hybride stavekontroller

I praksis er det vanlig at stavekontrollsystemer kombinerer flere forskjellige tilnærminger. De kan for eksempel bruke en kombinasjon av språkmodellbaserte metoder med regelbaserte metoder. Noen stavekontrollsystemer tilbyr også domene-spesifikke stavekontroller som inkluderer ordbøker spesifikke for fagfeltet. Et eksempel på dette er innen medisin, hvor stavekontrollsystemet kan inkludere egne ordlister for medisinske termer og navn på medisiner.

Les mer i Store norske leksikon

Kommentarer

Kommentarer til artikkelen blir synlig for alle. Ikke skriv inn sensitive opplysninger, for eksempel helseopplysninger. Fagansvarlig eller redaktør svarer når de kan. Det kan ta tid før du får svar.

Du må være logget inn for å kommentere.

eller registrer deg