Gjennomsnitt er i statistikk et tall som brukes til å oppsummere hva som er en sentral verdi i en samling av tall.

Gjennomsnittet tilsvarer tyngdepunktet i datamaterialet, og det kan regnes ut for alt som kan telles eller måles på en tallskala. For eksempel kan man beregne gjennomsnittlig høyde for norske 19-årige jenter (166,4 cm i 2019) og gjennomsnittet for hvor mange barn en norsk kvinne føder (1,41 barn per kvinne i 2022).

Beregning

Gjennomsnittsverdien finner man ved å legge sammen alle de observerte verdiene og dele summen på antall observasjoner.

Eksempel: Gjennomsnittshøyde for gutter

I en russeklasse med ti 19-årige gutter var høydemålingene (i cm):

181,7 | 190,5 | 178,3 | 187,1 | 188,1 | 196,7 | 191,2 | 183,9 | 194,2 | 182,8

Gjennomsnittshøyden for guttene i denne klassen var

(181,7 + 190,5+ 178,3+ 187,1+ 188,1+ 196,7+ 191,2+ 183,9+ 194,2+ 182,8) cm /10 = 187,5 cm.

Gjennomsnittshøyden i denne klassen var dermed høyere enn landsgjennomsnittet, som i 2005 var på 179,8 cm.

Formel

La \(x_1, x_2, \dots , x_n \) være de \(n\) observerte verdiene. Da er gjennomsnittet \(\bar{x}\) gitt ved formelen

\(\bar{x} = (x_1 + x_2 + \dots + x_n)/n = \frac{1}{n}\sum_{i=1}^{n} x_i\)

Tolkning: Oppsummeringstall

Gjennomsnittet kalles ofte et sentralmål, eller et tall for hva som er vanlig eller typisk i et statistisk datamateriale. Gjennomsnittet kalles også et oppsummeringstall for det typiske, og er derfor en del av det som kalles deskriptiv statistikk, eller beskrivende statistikk.

Statistiske data har nesten alltid variasjon på begge sider av gjennomsnittet. Hvis dataene er relativt symmetrisk fordelt, er gjennomsnittet nesten det samme som midtpunktet (medianen) i fordelingen. Da er det omtrent like mange observasjoner som er lavere enn gjennomsnittsverdien, som høyere enn gjennomsnittsverdien.

Hvis fordelingen til dataene er skjev, kan det derimot være stor forskjell på antallet observasjoner som er lavere enn gjennomsnittet og høyere enn gjennomsnittet.

Gjennomsnitt og median for symmetrisk og skjev fordeling

I en symmetrisk fordeling (øverst) vil gjennomsnittet være på midten, og verdien til gjennomsnittet er nesten det samme som medianverdien. I en skjev fordeling (nederst) vil gjennomsnittet verken være en god beskrivelse av de små måleverdiene, eller av de store måleverdiene.

Gjennomsnitt og median for symmetrisk og skjev fordeling
Lisens: CC BY SA 3.0

Eksempel: Gjennomsnittshøyde for jenter

Gjennomsnittsverdien 166,4 cm for 19-årige jenter er et tall man faktisk kan observere, siden høyde måles på en såkalt kontinuerlig skala. Det gjør det lett å forstå selve tallverdien til gjennomsnittet. Men det betyr ikke at alle 19-årige jenter er 166,4 cm. Høydemålinger varierer på begge sider av gjennomsnittet. Men vi kan si at 166,4 cm er en sentral verdi for høydemålinger, og at det oppsummerer hva som er vanlig eller typisk for høyden til 19-årige jenter.

Eksempel: Gjennomsnittlig antall barn

Gjennomsnittet for antall barn, 1,41 barn, er ikke et tall man kan observere. Det er fordi antall barn måles på en heltallsskala, en såkalt diskret skala. For å forstå denne gjennomsnittsverdien, må man fokusere på variasjonen på begge sider av gjennomsnittet: Mange kvinner føder færre enn 1,41 barn (altså ingen eller ett barn), mens mange føder flere enn 1,41 barn (to eller flere). Selv om det ikke er mulig å få nøyaktig 1,41 barn, er det både vanlig å få færre enn 1,41 barn, og flere enn 1,41 barn.

Ting man ikke kan observere direkte

Både antall barn og høyde er ting det er lett å telle eller måle. Man kan også finne gjennomsnitt for ting det er vanskeligere å observere direkte.

Eksempel: Snittkarakterer

Karakterer brukes for å gi et tall for hvordan skoleelever presterer. Det er svært vanlig å oppgi gjennomsnittskarakter for å oppsummere en enkelt elevs vitnemål, eller en gruppe elever.

For eksempel var snittkarakteren for hele Norge for norsk sidemål, Vg3 studieforberedende utdanningsprogram, skriftlig, 4,0 både i 2021 og i 2022.

Eksempel: Livskvalitet

Livskvalitet kan heller ikke måles med linjal eller litermål. I stedet brukes ofte spørreskjemaer. I en norsk studie fra 2015 der man brukte et spørreskjema for å måle livskvalitet, ble livskvalitet målt på en skala fra 0 (dårligst) til 100 (best) i 8 ulike dimensjoner. Undersøkelsen viste at norske kvinner mellom 70 og 80 år hadde en gjennomsnittsverdi på 71,6 på fysisk funksjon, mens gjennomsnittet for menn i samme aldersgruppe var 80,3. Det betyr at menn i denne aldersgruppen generelt skårer litt bedre på livskvalitet i dimensjonen fysisk funksjon enn kvinner.

Gjennomsnitt eller median

God bruk av statistikk handler om å beskrive data så riktig som mulig. Velger man feil tall for å oppsummere det man har studert, kan man risikere å gi et villedende inntrykk av virkeligheten.

Både median og gjennomsnitt er statistiske oppsummeringstall for det typiske ved et tallmateriale, men de har hver sine bruksområder. Kort sagt brukes gjennomsnittet for å oppsummere symmetriske data, og medianen brukes for skjevfordelte data.

I symmetriske datasett med en topp på midten og få ekstremverdier er medianverdien og gjennomsnittsverdien ofte ganske like. Da spiller det strengt tatt ingen rolle hvilken man velger for å beskrive det typiske. Begge deler er like riktig, og begge deler gir en god oppsummering av hva som er en vanlig verdi. Det er likevel gjennomsnittet som oftest foretrekkes.

I andre datasett kan medianen og gjennomsnittet være ganske ulike. Dette gjelder spesielt skjevfordelte data, eller datasett med ekstremverdier. Da vil man ofte foretrekke å bruke medianverdien.

I et datasett som er skjevt med topp til venstre og lang hale til høyre, vil skjevheten og ekstremverdiene forskyve gjennomsnittet til en høyere verdi enn der de fleste datapunktene ligger. Dermed vil det ofte være mange flere observasjoner på den ene enn den andre siden av gjennomsnittet, og dermed blir gjennomsnittet verken representativt for de mange lave verdiene, eller de få høye verdiene. Tilsvarende, hvis fordelingen er skjev med hale og ekstremverdier til venstre, blir gjennomsnittet trukket nedover. Medianen har derimot alltid like mange observasjoner på hver side, og er på den måten alltid i senteret av observasjonene. Det er derfor vanlig å kalle medianen for et robust sentralmål.

Eksempel: Temperaturmålinger

En skoleklasse i Tromsø bestemte seg for å måle temperaturen hver dag i mars 2023. Gjennomsnittet er en god beskrivelse av den typiske temperaturen i Tromsø denne måneden.

Histogram Tromsøtemperatur
Temperatur midt på dagen, hver dag i mars 2023 i Tromsø (simulerte data, basert på historiske tall fra yr.no). Medianen er markert med den røde streken og gjennomsnittet med den blå.
Histogram Tromsøtemperatur
Lisens: CC BY SA 3.0

Eksempel: Varighet av covid-symptomer

Fjorten personer med covid-19-sykdom rapporterte hvor mange dager de hadde symptomer:

3, 4, 5, 5, 7, 7, 7, 8, 12, 14, 17, 22, 30, 360

Tretten av disse hadde symptomer i inntil en måned. Den ene personen som hadde symptomer i et år skiller seg kraftig ut fra de andre. Dette ser man i histogrammet og ut fra verdiene til medianen og gjennomsnittet. Medianen gir en god beskrivelse av et typisk forløp (symptomer i 7,5 dager), mens gjennomsnittsverdien på 36 dager verken er en god beskrivelse av de vanlige, korte sykdomsforløpene eller av det ene lange forløpet.

Histogram sykdomsvarighet simulerte data
Varighet (dager) av symptomer etter covid-19-sykdom (simulerte data basert på en forskningsartikkel fra 2021). Medianen er markert med den røde streken og gjennomsnittet med den blå.
Histogram sykdomsvarighet simulerte data
Lisens: CC BY SA 3.0

Gjennomsnitt og standardavvik

Gjennomsnittet er et oppsummeringstall som ofte kombineres med standardavviket for de samme observasjonene. Gjennomsnittet beskriver det typiske ved de innsamlede tallene, mens standardavviket beskriver variasjonen eller spredningen.

På samme måte kombineres medianen ofte med nedre og øvre kvartil. Medianen beskriver det typiske, mens kvartilene beskriver variasjonen.

Estimeringsteori

I teksten over har gjennomsnittet utelukkende blitt brukt og tolket som et oppsummeringstall, altså et tall som beskriver et innsamlet tallmateriale.

I den delen av statistikkfaget som handler om estimering, har gjennomsnittet en annen rolle. Da brukes det som estimator og estimat for forventningsverdien i den populasjonen som målingene kommer fra.

Beregningen gjøres på samme måte, og formelen er lik som når gjennomsnittet brukes for å beskrive et tallmateriale, men tolkningen er ulik. Når gjennomsnittet brukes som oppsummeringstall, sier man at det beskriver det typiske for det som er observert. Men når gjennomsnittet brukes som estimat, sier man at verdien er den beste gjetningen for den typiske verdien i det som ikke er observert.

Les mer i Store norske leksikon

Eksterne lenker

Kommentarer

Kommentarer til artikkelen blir synlig for alle. Ikke skriv inn sensitive opplysninger, for eksempel helseopplysninger. Fagansvarlig eller redaktør svarer når de kan. Det kan ta tid før du får svar.

Du må være logget inn for å kommentere.

eller registrer deg