Et standardavvik er i statistikk et tall som oppsummerer variasjonen i en samling tallverdier. Standardavviket sier noe om hvor spredt verdiene er, og kalles derfor ofte et spredningsmål.

Det finnes både observerbart standardavvik og teoretisk standardavvik. Det observerbare standardavviket er et tall som beskriver variasjonen eller spredningen i et innsamlet tallmateriale. Det er oftest dette som menes når man snakker om standardavvik.

Det teoretiske standardavviket spesifiserer variasjonen i en statistisk modell, for eksempel i normalfordelingen.

Observerbart standardavvik

Når statistiske data skal oppsummeres, trenger man å beskrive både hva som er en sentral eller typisk verdi i dataene og variasjonen i dataene. Gjennomsnitt og median er verdier som beskriver det typiske, mens standardavvik og kvartiler er verdier som beskriver variasjonen.

Gjennomsnittet og standardavviket gir en god oppsummering av symmetriske, éntoppede data uten ekstremverdier, og disse to tallene oppgis derfor ofte sammen når slike data skal oppsummeres på en kort og konsis måte.

Standardavviket kan regnes ut for alt som kan telles eller måles på en tallskala. Man kan for eksempel beregne standardavviket for temperaturen i Tromsø i mars, og standardavviket for antall katter per familie i et nabolag.

Notasjon

Standardavviket skrives ofte som SD, Sd eller sd, etter forkortelsen av det engelske begrepet standard deviation. Denne forkortelsen finnes ofte i faglitteratur og utskrifter fra statistiske dataprogrammer. Noen ganger brukes også s, S eller st.dev. om standardavviket.

Det observerbare standardavviket kalles også empirisk standardavvik.

Formel

La \(x_1, x_2, \dots , x_n \) være de \(n\) observerte verdiene. Da er gjennomsnittet \(\bar{x}\) gitt ved formelen

\(\bar{x} = (x_1 + x_2 + \dots + x_n)/n = \frac{1}{n}\sum_{i=1}^{n} x_i\)

og standardavviket er gitt ved

\(SD = \sqrt{\frac{1}{n-1} \sum_{i=1}^{n} (x_i – \bar{x})^2} \)

sdskisse
Hvis man har observasjoner langs en skala (kryssene på tallinja), kan man finne tyngdepunktet (grå pil i figur 2). Dette er det samme som gjennomsnittsverdien. Da kan man også beregne avvikene fra gjennomsnittet (figur 3). Blå streker viser positive avvik fra gjennomsnittet (enkeltverdiene er større enn gjennomsnittet). Røde streker viser negative avvik fra gjennomsnittet (enkeltverdiene er mindre enn gjennomsnittet). Standardavviket oppsummerer det gjennomsnittlige avviket fra gjennomsnittet, altså gjennomsnittslengden på de røde og blå strekene. Dermed blir standardavviket i figur 4 mindre enn standardavviket i figur 3, siden observasjonene i figur 4 er tettere samlet rundt gjennomsnittet enn de er i figur 3.
sdskisse
Lisens: CC BY SA 3.0

Eksempel: Høydemålinger for gutter

I en russeklasse med 10 gutter på 19 år, var høydemålingene (i cm):

181,7 190,5 178,3 187,1 188,1 196,7 191,2 183,9 194,2 182,8

Gjennomsnittshøyden for guttene i denne klassen var 187,5 cm. Standardavviket for høydemålingene var

\(\sqrt{\frac{(181,7-187,5)^2 + (190,5 – 187,5)^2 + ... + (182,8 – 187,5)^2}{10-1} } \text{ cm} = 5{,}8 \text{ cm}\)

Standardavviket og normalfordelingen

Selv om standardavviket kan regnes ut for alt som kan telles eller måles, er det først og fremst et godt oppsummeringstall for variasjonen i en éntoppet, symmetrisk fordeling. Når fordelingen til data er éntoppet, symmetrisk og har lette haler på hver side, slik figuren under viser, kan man si at den er normalfordelt.

Da kan standardavviket brukes til å beregne intervaller som inneholder en gitt andel av de observerte verdiene. Det mest brukte intervallet er det som strekker seg fra to standardavvik til venstre for midten, til to standardavvik til høyre for midten. Hvis dataene er rimelig normalfordelte, vil dette intervallet inneholde om lag 95 prosent av alle de observerte verdiene. Samtidig vil svært få verdier være lenger unna midten enn tre standardavvik.

Normalfordelte data
Normalfordelte data fordeler seg symmetrisk rundt et tyngdepunkt, med færre og færre observasjoner jo lenger bort fra tyngdepunktet man kommer, og med ingen eller svært få ekstreme verdier.
Normalfordelte data
Lisens: CC BY SA 3.0
Normalfordelte data med 2 SD
Når observasjonene er normalfordelte, er cirka 95 prosent av observasjonene mellom \(\bar{x} – 2 \cdot sd\) og \(\bar{x} + 2 \cdot sd\).
Normalfordelte data med 2 SD
Lisens: CC BY SA 3.0
Normalfordelte data med 3 SD
Når observasjonene er normalfordelte, er nesten alle observasjonene mellom \(\bar{x} – 3 \cdot sd\) og \(\bar{x} + 3 \cdot sd\).
Normalfordelte data med 3 SD
Lisens: CC BY SA 3.0

Eksempel: Høydemålinger for gutter

Hvis man får vite at gjennomsnittshøyden for et utvalg med 10 russegutter er 187,5 cm, og at standardavviket for høydemålingene er 5,8 cm, kan man gjette at dataene er rimelig normalfordelte. Hvis det stemmer, vil cirka 95 prosent av guttene i utvalget være mellom 175,9 cm (187,5 cm – 2\(\cdot\)5,8 cm) og 199,1 cm (187,5 cm + 2\(\cdot\)5,8 cm). Samtidig vil nesten ingen være lavere enn 187,5 cm – 3\(\cdot\)5,8 cm = 170,1 cm og nesten ingen vil være høyere enn 187,5 cm + 3\(\cdot\)5,8 cm = 204,9 cm.

I dette eksemplet var det bare 10 høydemålinger. Da er det ikke så praktisk å snakke om 95 prosent av disse, men i eksempler der det er mange flere målinger, er dette en svært nyttig tolkning av standardavviket.

Praktisk bruk og kritisk lesing av statistikk

Når noen oppgir gjennomsnitt og standardavvik for å beskrive et tallmateriale, kan man ofte gå ut fra at de har sjekket at fordelingen til dataene er rimelig normalfordelt, at gjennomsnittet og standardavviket er gode oppsummeringstall, og at gjennomsnittet pluss/minus to standardavvik vil inneholde de fleste observasjonene. Ved å tegne en normalfordelingsskisse og markere gjennomsnittet i midten, og regne seg frem til to standardavvik på hver side av gjennomsnittet, kan man som leser kjapt skaffe seg en oversikt over fordelingen.

Men det er ikke alltid dette stemmer. Noen ganger resulterer dette i en merkelig skisse som umulig kan stemme med virkeligheten. I en artikkel om komavarighet for terrorofre i Midtøsten ble det for eksempel oppgitt en gjennomsnittlig komavarighet på 6,6 dager, og et standardavvik på 8,5 dager. Hvis disse tallene tegnes opp som om de var normalfordelte, ser det rart ut. Regner man ut gjennomsnittet minus to standardavvik, havner vi langt til venstre for null. Men det gir ikke mening å si at noen er i koma et negativt antall dager. Det betyr at gjennomsnitt og standardavvik ikke gir en god oppsummering av data, og at dataene antakelig er såpass skjevfordelt at man heller burde brukt median og kvartiler som oppsummeringstall. Da er det grunn til å være litt på vakt for feil bruk av analyser i resten av teksten også, selv om temaet fortsatt kan være interessant, og andre analyser og resultater kan være riktige.

Tsjebysjevs ulikhet

Den russiske matematikeren Pafnutij Tsjebysjev (Chebyshev) viste at selv om data ikke er normalfordelte, vil intervallet som strekker seg fra to standardavvik til venstre for gjennomsnittet, til to standardavvik til høyre for gjennomsnittet, alltid inneholde minst 75 prosent av observasjonene.

Dette vil også gjelde for komaeksemplet over. Resultatet brukes imidlertid ikke så ofte i praksis som normalfordelingstolkningen.

SD er ikke det samme som SE

Forkortelsene SE, S.E., SEM eller S.E.M er noe annet enn standardavviket. Disse forkortelsene brukes om den såkalte standardfeilen, også kalt estimeringsusikkerhet, og de er forkortelser for det engelske begreper standard error. Dette er altså ikke det samme som standardavviket.

Standardavvik og varians

Varians er et annet statistisk mål for variasjon i et datamateriale. Sammenhengen mellom variansen og standardavviket er enkel: Standardavviket er kvadratroten av variansen, og variansen er standardavviket ganget med seg selv, altså kvadrert.

Det er lettere å gi en praktisk tolkning av standardavviket enn av variansen, og derfor oppsummeres gjerne variasjonen i observerte data med dette tallet. Standardavviket har samme benevning som observasjonene selv: hvis noe måles i cm, er standardavviket også gitt i cm.

Variansen er derimot enklere å bruke i en del matematiske beregninger, og denne verdien foretrekkes ofte i matematiske sammenhenger.

Teoretisk standardavvik

Det teoretiske standardavviket spesifiserer variasjonen i en statistisk modell. Dette standardavviket kalles gjerne en parameter i modellen, og noteres med den greske bokstaven sigma, \(\sigma\). Det teoretiske standardavviket er kvadratroten av den teoretiske variansen, og for en stokastisk variabel \(X\) gjelder at \(Var(X) = \sigma^2\).

Teoretisk standardavvik i normalfordelingen

Normalfordelingen er den mest kjente statistiske modellen. I en normalfordeling er verdiene symmetrisk fordelt rundt et midtpunkt, med mange verdier rundt midten, og færre verdier langt unna midten, på begge sider.

Det finnes uendelig mange versjoner av normalfordelingen, avhengig av hvilken verdi som forventes å være midt på, og hvor stor spredning verdiene har. Midtpunktet spesifiseres av forventningsverdien \(\mu\), og spredningen av verdier spesifiseres av standardavviket \(\sigma\). De to størrelsene \(\mu\) og \(\sigma\) kalles parameterne til modellen.

Både \(\mu\) og \(\sigma\) er vanligvis ukjente tall, og de må beregnes fra tall man samler inn. Å bruke innsamlede tall til å gjette hva de ukjente parameterverdiene er, kalles estimering. Tallene som regnes ut for å estimere de ukjente parameterverdiene, kalles estimater.

Gjennomsnittet er et estimat for forventningsverdien \(\mu\), og det observerte standardavviket er et estimat for det teoretiske standardavviket \(\sigma\).

Normalfordeling for IQ-verdier

En normalfordelingsmodell for IQ-verdier i en befolkning. IQ er en konstruert størrelse, og den er konstruert slik at verdiene i befolkningen er tenkt å være normalfordelte med forventningsverdi på 100 og (et teoretisk) standardavvik på 15.

Normalfordeling for IQ-verdier
Lisens: CC BY SA 3.0

Teoretisk standardavvik i andre statistiske modeller

Både i normalfordelingsmodellen og i andre modeller vil standardavviket til en tilfeldig (stokastisk) variabel måle hvor mye variabelen forventes å avvike fra sin forventningsverdi.

Les mer i Store norske leksikon

Eksterne lenker

Kommentarer

Kommentarer til artikkelen blir synlig for alle. Ikke skriv inn sensitive opplysninger, for eksempel helseopplysninger. Fagansvarlig eller redaktør svarer når de kan. Det kan ta tid før du får svar.

Du må være logget inn for å kommentere.

eller registrer deg