Histogram er en type figur som brukes i statistikk til å vise fordelingen av et sett med målinger eller verdier.

Faktaboks

Histogrammer er viktige for å beskrive et datamateriale. Det er fordelingen til dataene som brukes for å velge de tallene som best beskriver de dataene som har blitt samlet inn. Noen fordelinger beskrives godt av et gjennomsnitt og et standardavvik. Andre fordelinger beskrives best av median og kvartiler.

Bruk av histogram

Tallene som oppsummeres i et histogram kan være måledata (for eksempel tid, penger, lengde, høyde, temperatur, mengde) eller telledata med stor variasjon (for eksempel antall elever på en skole, antall bakterier i en vannprøve, antall biler på vei ut av Oslo en ettermiddag).

Eksempel 1: Melkemengde

Norske kyr produserer mye melk. Melkemengden varierer blant annet med med rase, alder og fôr. Histogrammet viser den årlige melkeproduksjonen for 108 kyr.

Histogram melkeproduksjon
Histogrammet viser fordelingen av årlig melkemengde for 108 melkekyr. x-aksen viser mulige verdier for hvor mye melk en ku kan produsere i løpet av et år. Histogrammet viser at den minste melkemengden som er observert for disse kyrne er i intervallet 7 tonn til 7,5 tonn, og at den største melkemengden fra en ku er mellom 11 tonn og 11,5 tonn. Høyden på søylene viser hvor mange kyr som har en melkeproduksjon innenfor hvert intervall på x-aksen, og dette er det som kan leses av på y-aksen.
Histogram melkeproduksjon
Lisens: CC BY SA 3.0

Aksene til et histogram

Et histogram viser vanligvis de måleverdiene man er interessert i på x-aksen. I eksempel 1 er dette den årlige melkeproduksjonen.

I alle histogrammer deles x-aksen i intervaller som tilsvarer bredden på søylene. I eksempel 1 er det første intervallet fra 7000 kg til 7500 kg, neste intervall er fra 7500 kg til 8000 kg, og alle intervallene er like brede.

I histogrammet over melkeproduksjon viser y-aksen hvor mange kyr som er i hvert intervall (frekvens). Andre histogrammer kan ha en y-akse som viser andelen observasjoner i hvert intervall (relativ frekvens). Det er også mulig å konstruere histogrammer der arealet av hver søyle tilsvarer den relative frekvensen. Da er tallene på y-aksen ikke direkte tolkbare.

Dersom bredden på søylene er like, vil et histogram med frekvens på y-aksen, et med relativ frekvens på y-aksen og et der den relative frekvensen er gitt ved arealet på søylene se like ut, selv om tallene på y-aksen tolkes ulikt.

Histogram melkeproduksjon ulik intervallbredde

Tre histogrammer med de samme melkeproduksjonsdataene, der intervallene på x-aksen er ulike. Alle de tre histogrammene viser en entoppet fordeling som er litt skjev, med en hale mot høyre, men inntrykket er likevel litt forskjellig.

Histogram melkeproduksjon ulik intervallbredde
Lisens: CC BY SA 3.0

Å lage et histogram

For å kunne lage et histogram, må tallene i tallmaterialet først sorteres i stigende rekkefølge. Så må man velge intervallbredder langs x-aksen som skal gjelde for søylene i diagrammet. Deretter må antallet observasjoner telles i hvert intervall. Til slutt må man velge om y-aksen skal vise antall (frekvens), andel (relativ frekvens), eller om arealet av søylen skal vise relativ frekvens.

Det finnes mange ulike typer programvare som gjør alt dette automatisk ut fra forhåndsinnstillinger.

Å tolke et histogram

Histogrammer brukes for å få en oversikt over fordelingen til de observerte tallene. Det er spesielt tre ting som vurderes:

  • Er fordelingen symmetrisk eller skjev?
  • Har fordelingen avviksverdier eller ekstremverdier?
  • Er fordelingen entoppet eller totoppet (flertoppet)?

Symmetrisk eller skjev fordeling

Histogrammer viser om fordelingen til måledataene er relativt symmetrisk eller skjev. For symmetrisk fordelte måledata vil histogrammet ha ganske lik fasong på begge sider av midten.

For skjevfordelte måledata er det ingen åpenbar symmetri i histogrammet. Histogrammer til skjevfordelte data har ofte en topp forskjøvet til en av sidene og en hale på motsatt side.

Histogram symmetrisk og skjev fordeling

Histogrammet til venstre viser en typisk symmetrisk fordeling der fasongen er ganske lik på begge sider av midten. Dette histogrammet er entoppet og har ingen ekstremverdier. Histogrammet til høyre viser en skjev fordeling, med topp mot venstre og hale til høyre. Det er flere verdier til venstre som avviker mye fra det som er vanlige verdier i denne fordelingen, men det er ingen enkeltmålinger som skiller seg ut som ekstreme.

Histogram symmetrisk og skjev fordeling
Lisens: CC BY SA 3.0

Eksempel 2: Høydefordeling for gutter

Høyden til norske, 17-årige gutter er symmetrisk fordelt, som histogrammet viser. Gjennomsnittshøyden for dette utvalget er 177,9 cm, og medianen er 177,7 cm, så disse verdiene er ganske like.

Både gjennomsnittet og medianen vil dermed gi en god beskrivelse av hva som er det sentrale i dette datasettet.

Høyde for 17-årige gutter
Høydefordelingen for 1257 norske, 17-årige gutter (simulerte data, basert på percentilskjema for vekst). Gjennomsnittshøyden er 177,9 cm, og den vises der den hvite, stiplede linjen treffer x-aksen. Medianhøyden er 177,7 cm, og den vises der den røde, heltrukne linjen treffer x-aksen. I denne symmetriske fordelingen er gjennomsnittet og medianverdien ganske like.
Høyde for 17-årige gutter
Lisens: CC BY SA 3.0

Eksempel 3: Responstid for ambulanser

Responstiden for ambulanse er den tiden det tar fra en telefon mottas på en nødsentral til ambulansen er fremme hos den som trenger hjelp. I dette eksempelet er dataene skjevfordelt, og histogrammet viser en topp til venstre og en lang hale til høyre. Her er det ganske stor forskjell på gjennomsnittsverdien og medianen.

Responstider Oppdal 2019
Responstiden for ambulanser i Oppdal kommune i 2019. Fordelingen er skjev, med en topp til venstre og en hale til høyre. Gjennomsnittlig responstid vises der den hvite, stiplede linjen treffer x-aksen. Median responstid vises der den røde, heltrukne linjen treffer x-aksen. Dette er et eksempel på at gjennomsnittsverdien og medianverdien vanligvis er ganske forskjellige i skjeve fordelinger.
Responstider Oppdal 2019
Lisens: CC BY SA 3.0

Avviksverdier eller ekstremverdier

Histogrammer kan tydeliggjøre avviksverdier (ofte kalt «outliere», av og til også «uteliggere») eller ekstremverdier i måledata. Slike verdier er målinger som ligger langt ut til en av sidene langs x-aksen sammenlignet med resten av målingene, og som er svært forskjellig fra resten av målingene i måledataene. Avviksverdier og ekstremverdier kan skyldes målefeil eller registreringsfeil i datainnsamlingen. Hvis det er åpenbart at feil er årsaken til avvikene, blir disse enkeltmålingene fjernet fra måledataene før videre analyse. Men slike verdier kan også være en del av den naturlige variasjonen. I så fall skal de ikke fjernes fra datasettet.

I eksempel 2 om ambulansers responstid er det flere ekstremverdier mot høyre langs x-aksen (målingene over 80 minutter). Disse målingene ligger langt over resten av responstidene i måledataene og ansees som ekstreme. De er imidlertid en del av den naturlige variasjonen, og bør derfor ikke fjernes før videre analyse, fordi dette ville gi et feilaktig bilde av virkeligheten.

Histogram symmetrisk og skjev fordeling med ekstremverdier
Begge histogrammene viser fordelinger med ekstremverdier (markert med piler). Histogrammet øverst viser en typisk symmetrisk fordeling, der fasongen til fordelingen er ganske lik på begge sider av midten. Histogrammet er entoppet og har både lave og høye ekstremverdier.
Histogrammet nederst viser en skjev fordeling, med topp mot venstre og hale til høyre. I tillegg til at det er flere verdier til høyre som avviker mye fra det som er vanlige verdier i denne fordelingen, er det også noen svært høye enkeltmålinger som skiller seg ut som ekstreme.
Histogram symmetrisk og skjev fordeling med ekstremverdier
Lisens: CC BY SA 3.0

Entoppet eller totoppet (flertoppet) fordeling

En fordeling kan beskrives ut fra hvor mange topper (moder) den har. En fordeling med én topp kalles en entoppet (unimodal) fordeling, mens en fordeling med to topper kalles en totoppet (bimodal) fordeling. En fordeling med flere topper kaller en flertoppet (multimodal) fordeling.

Hvis histogrammet viser tydelig at det er to eller flere topper i fordelingen, må dataene og datainnsamlingen undersøkes nærmere. To eller flere topper kan tyde på at det er undergrupper i datasettet. Grupperinger i data kan komme av mange ting (for eksempel ulike aldersgrupper, ulike jordsmonn, eller ulikt klima), undergrupper bør enten analyseres hver for seg, eller på annen måte tas hensyn til i analysen.

Histogram totoppede fordelinger
To eksempler på totoppede (bimodale) fordelinger med tydelige topper.
Histogram totoppede fordelinger
Lisens: CC BY SA 3.0

Eksempel 3: Størrelsen på fisk

Oppdrettslaks klekkes og lever sitt første år i ferskvann. Når laksen er omtrent et år gammel, flyttes lakseyngelen (som kalles smolt) til saltvann. Smolten veier da rundt 50 gram, men vekten varierer. Denne variasjonen kan tegnes i et histogram, se under.

Når laksen har vokst litt over et år i saltvann, er den slakteklar. Hvor stor laksen da har blitt, varierer også. Dersom et oppdrettsanlegg har en blanding av smolt som har vokst i 13 måneder og smolt som har vokst i 15 måneder, vil de mange av de eldste fiskene være større enn de yngste. Da vil histogrammet for vekten til laksen typisk ha to topper: En topp for 13 måneder gammel fisk, og en topp for 15 måneder gammel fisk, som histogrammet viser.

histogram smolt og laks

To histogrammer som viser fordelingen av størrelsen til oppdrettsfisk (simulerte data basert på publiserte vekstdata). Det øverste histogrammet (grått) viser størrelsen til ett år gammel smolt (små laks) som flyttes fra ferskvann til saltvann. Fordelingen er symmetrisk og entoppet (unimodal). Det nederste histogrammet (lakserosa) viser størrelsen til slakteklar laks, etter litt over et år i saltvann. Fordelingen er totoppet (bimodal). Dette skyldes at den slakteklare laksen i disse simulerte dataene er en kombinasjon av 13 måneder og 15 måneder gammel laks.

histogram smolt og laks
Lisens: CC BY SA 3.0

Naturlig variasjon og uregelmessigheter i histogrammet

Et histogram beskriver fordelingen i et begrenset utvalg. Naturlig variasjon i dataene (utvalgsvariasjon) kan gjøre at man tilsynelatende ser flere topper i histogrammet, uten at det faktisk er flere grupper i utvalget. Slike «ruglete» histogrammer er svært vanlige hvis datasettet er lite, og i områder der det er gjort få observasjoner, i større datasett. Før man konkluderer med at fordelingen har flere topper og analyserer som om det er undergrupper, må man derfor vurdere om datasettet er stort nok til at det er mulig å oppdage flere topper, og om det er grunn til å tro at toppene er reelle.

Histogram ruglete pga lite utvalg

Disse histogrammene antas å være basert på et begrenset antall observasjoner (for eksempel under 100). Når det er små utvalg, vil naturlig variasjon gjøre at histogrammene får en litt «ruglete» overflate, og det vil ofte være søyler som er litt lavere eller høyere enn de rundt, uten at det betyr at fordelingen egentlig har to topper. Begge disse histogrammene vil kunne betegnes som entoppede.

Histogram ruglete pga lite utvalg
Lisens: CC BY SA 3.0

Histogram eller søylediagram

Et histogram forveksles ofte med et søylediagram, og selv lærebøker bruker av og til feilaktig søylediagram som synonym for histogram.

Forskjellen mellom dem er at et søylediagram brukes til å oppsummere kategoriske eller diskrete variabler, mens et histogram brukes til å oppsummere en kontinuerlig variabel, eller diskrete variabler med stor variasjon i de observerte verdiene.

Utseendet er også litt forskjellig. I søylediagrammet (også kalt stolpediagram) er søylene enkeltstående søyler, og defineres av de kategoriene eller diskrete tallene som er registrert. Søylene kunne like gjerne vært streker uten bredde. I et histogram er det derimot ingen avstand mellom søylene, intervallbredden bestemmes når man lager diagrammet, og dette er ikke gitt av dataene.

Les mer i Store norske leksikon

Kommentarer

Kommentarer til artikkelen blir synlig for alle. Ikke skriv inn sensitive opplysninger, for eksempel helseopplysninger. Fagansvarlig eller redaktør svarer når de kan. Det kan ta tid før du får svar.

Du må være logget inn for å kommentere.

eller registrer deg