tegnsett – IT

metode for å gjengi tall, bokstaver og andre skrifttegn i binære sekvenser. Det opprinnelige ASCII-tegnsettet er på sju biter (se bit) og kan derfor kode 128 ulike tegn (fra 0000000 til 1111111). De første 33 tegnene i ASCII-standarden er forbeholdt kontrolltegn for å styre enheter som skjerm og skriver. Deretter kommer tall, bokstavene A til Z og a til z, og tegn som komma og punktum. For å få med alle bokstaver brukt i språk med latinsk alfabet, utviklet IBM utvidet ASCII med åtte biter per tegn. Her ble ikke bare flere islandske og samiske tegn utelatt, men også de norsk-danske vokalene ø og Ø.

Tegnsettet i moderne PCer med grafisk brukergrensesnitt holder seg til en annen standard (ANSI) der tegnsettet kan variere etter skrifttypen som er valgt. Ved å blande ulike skrifttyper kan langt flere tegn gjengis i samme dokument enn de 256 definert i utvidet ASCII.

En aktuell løsning vil være å nytte et nytt standard 16-biters tegnsett kjent som Unicode. De 65 536 tegnene i dette tegnsettet vil kunne dekke praktisk talt alle klodens skriftspråk, inklusive kinesisk og japansk, og sikre at et dokument kan gjengis korrekt, uavhengig av skriftutvalget på datamaskinen. Videre har ISO definert et 32 biters tegnsett (fire bytes per tegn mot to for Unicode og én for ANSI) der Unicode opptrer som delmengde.