Boksplott er en type figur som brukes i statistikk til å vise fordelingen av en samling målinger eller verdier.

Boksplott er et alternativ til histogram. Fordelen med boksplott fremfor histogram er blant annet at det er lett å sammenligne målinger fra ulike grupper i én figur.

Fordelingen til dataene brukes for å velge de oppsummeringstallene som best beskriver de dataene som har blitt samlet inn. Noen fordelinger er symmetriske og éntoppede og beskrives godt av et gjennomsnitt og et standardavvik. Andre fordelinger beskrives best av median og kvartiler. Slike vurderinger gjøres også for å beskrive målinger i grupper i et datasett.

Konstruksjon av histogram og boksplott
For å tegne et histogram (øverste del av figuren), deler man først inn skalaen (den grå tallinja) i intervaller. Intervallene trenger ikke å være like brede, men i de fleste statistikkprogrammer har intervallene lik bredde. Så teller man antall observasjoner i hvert intervall, og lar høyden på histogrammet reflektere antallet eller andelen observasjoner i et gitt intervall. I figuren er det brukt lyseblå vertikale streker for å markere intervallene, så det skal være lett å se hvilke kryss som hører til hvert intervall.
Boksen i boksplottet (blå boks i nederste del av figuren) konstrueres fra kvartilene (tynne blå streker), og så tegnes medianen inn i boksen (tynn, svart strek i datasettet og tykk, svart strek i boksplottet). De oransje utstikkerne viser det området som har verdier som er lavere enn nedre kvartil, men ikke lavere enn 1,5 boksbredder lavere enn medianen, og det området som har verdier som er høyere enn øvre kvartil. Den rosa rundingen viser en verdi som er lavere enn 1,5 boksbredder nedenfor medianen. Dette kalles en avviksverdi, uteligger eller outlier.
Konstruksjon av histogram og boksplott
Lisens: CC BY SA 3.0
Histogram og boksplott
Et histogram og et boksplott av de samme dataene.
Histogram og boksplott
Lisens: CC BY SA 3.0
Svelling i lagrede kaninhornhinner.

Plottet viser hvor mye kaninhornhinner som er lagret ved ulike temperaturer, sveller (suger opp væske) etter som tiden går. Figuren finnes i artikkelen "Influence of temperature on corneas stored in culture medium. A comparative study using functional and morphological methods" av Frode D. Sandboe, Walther Medin og Kathrine Frey Frøslie. DOI: 10.1034/j.1600-0420.2003.00002.x

Svelling i lagrede kaninhornhinner.
Lisens: CC BY SA 3.0

Å lage og tolke boksplott

Figuren under viser hvordan man konstruerer et histogram (øverst) og boksplott (nederst) av de samme dataene.

Datasettet er tegnet som blå kryss langs en grå tallinje. Det kan for eksempel være høydemålinger, bakterietall i en vannprøve fra Oslofjorden eller melkemengde for kyr.

Boksplottet lages fra medianen og kvartilene til tallene

For å tegne et boksplott deler man inn datasettet på en annen måte. Kvartilene og medianen bestemmer intervallene. Først deles datasettet i to. Medianverdien blir markert med en strek (den svarte streken i figuren), slik at det er like mange kryss på hver side.

Deretter deles hver halvdel i to på samme måte ved å markere kvartilene (blå streker i figuren). Fra venstre mot høyre finner man nå 25 prosent av kryssene til venstre for den første blå streken (nedre kvartil), 25 prosent mellom blå strek og svart strek (medianen), 25 prosent mellom svart og blå strek (øvre kvartil), og 25 prosent til høyre for den andre blå streken (øvre kvartil).

Boksplottet har fått navnet fordi man tegner en boks der de midterste 50 prosent av observasjonene ligger (blå boks i figuren). Ut fra boksen tegnes «værhår» (oransje, horisontale streker i figuren) som viser i hvilket område man finner de 25 prosent laveste og 25 prosent høyeste verdiene. På engelsk kalles boksplottet derfor ofte box-and-whiskers plot ('boks- og værhårsplott').

I tillegg er det vanlig å bruke boksbredden til å angi avviksverdier (også kalt uteliggere eller outliers) og ekstremverdier. Denne figuren har de samme spesifikasjonene som statistikkprogrammet SPSS bruker: Verdier som er utenfor 1,5 boksbredde fra boksen er angitt med en runding (rosa i figuren). Hvis det fantes observasjoner som var lenger enn 3 boksbredder fra boksen, ville de blitt markert med en stjerne.

Et fjell sett ovenfra

Histogrammer viser profilen til fordelingen fra siden (som et fjell i profil mot kveldssola), mens boksplott viser fordelingen ovenfra (som et kart over fjellet, med høydekoter).

Histogram eller boksplott

Fordelen med histogram er at mange har erfaring med å lage, lese og tolke dem.

Fordelen med boksplott er mange flere: De tar liten plass, er lette å bruke for å identifisere avviksverdier og ekstremverdier, de gjør det enkelt (og plasseffektivt) å sammenligne mange grupper, og de lar dataene selv bestemme intervallene. Derfor brukes boksplott mye i forskningslitteraturen.

Les mer i Store norske leksikon

Kommentarer

Kommentarer til artikkelen blir synlig for alle. Ikke skriv inn sensitive opplysninger, for eksempel helseopplysninger. Fagansvarlig eller redaktør svarer når de kan. Det kan ta tid før du får svar.

Du må være logget inn for å kommentere.

eller registrer deg