OCR – Store norske leksikon

OCR, eller tekstskanning, er en metode der et datasystem leser tegn og tekst i et bilde og gjør dette om til en digital tekstlig representasjon. Etter at et bilde av tekst er prosessert med tekstskanning, sitter man altså igjen med redigerbar tekst. Ved hjelp av tekstskanning kan for eksempel papirdokumenter konverteres til digitale dokumenter, med alt det innebærer av søkbarhet og redigerbarhet. Å konvertere et bilde av tekst til digitalt representert tekst vil også kunne være plassbesparende.

Faktaboks

Etymologi: forkortelse for engelsk Optical Character Recognition
Også kjent som: tekstskanning, optisk tegngjenkjenning, optisk tekstgjenkjenning

Tidlige tekstskanningssystemer kunne bare lese tegn utformet etter spesielle standarder. I dag er det imidlertid vanlig at tekstskanningsprogramvare med høy nøyaktighet kan konvertere det meste av trykt og håndskrevet tekst. Slik programvare leveres ofte sammen med skannere, og blir en sømløs del av prosessen med å skanne et papirdokument.

I tillegg til enkeltstående dokumenter er tekstskanning en viktig brikke i mange store systemer. Blant annet er sortering og distribusjon av brev og pakker i dag stort sett automatisert fordi maskiner kan lese mottakeradressen. Imidlertid er behovet for tekstskanning til en viss grad redusert, da det meste av skjemaer i dag er digitalisert. Tidligere ble for eksempel alle selvangivelser (skattemeldinger) maskinelt behandlet selv om de ble fylt ut for hånd.

Les mer i Store norske leksikon

optisk lesing

Kommentarer

Kommentarer til artikkelen blir synlig for alle. Ikke skriv inn sensitive opplysninger, for eksempel helseopplysninger. Fagansvarlig eller redaktør svarer når de kan. Det kan ta tid før du får svar.

Du må være logget inn for å kommentere.

Fagansvarlig for Digital representasjon

Tom Heine Nätt

Førstelektor, Høgskolen i Østfold