data (statistikk)

Artikkelstart

I statistikk er data innsamlet informasjon i form av tall eller kategoriseringer av det som kan observeres. Slik informasjon kalles kvantitativ informasjon eller kvantitative data.

En samling av ulike typer kvantitativ informasjon kalles gjerne et datasett. I faget statistikk skilles det mellom data som er tall og data som er kategorier.

Tall-data

Høydemålinger, rundetider, befolkningstall og stilkarakterer på hopp er alle eksempler på tall-data.

Tall-data kan være målinger langs en sammenhengende (kontinuerlig) skala, som for eksempel målinger av personers høyde. Da kalles de kontinuerlige data og angis med desimaltall. Rundetider, avstander, vekt og volum er andre eksempler på kontinuerlige data, selv om de av og til registreres som heltall.

Tall-data kan også være antall og angis med heltall. I både statistikk og matematikk brukes ordet diskret (adskilt) om denne typen data. Antall barn i en familie, antall biler en person har eid, og antall beinbrudd en person har hatt, er eksempler på diskrete data. Også stilkarakterer i hopp, som kan gis som hele eller halve poeng på en skala fra 0 til 20, kan regnes som diskrete data, fordi det ikke er mulig å oppnå noe annet enn hele og halve poeng.

Tall-data kalles også numeriske data.

Kategoriske data

Informasjon kan også observeres og samles inn i form av kategorier, for eksempel hvilken type fugl man har observert, hvilken analysemetode man har valgt, eller hvilken type bil man har.

I spørreundersøkelser er det vanlig å samle inn informasjon som kategoriske data. Dette er informasjon som oppgis ved å velge mellom kategorier som er definert på forhånd. Noen eksempler på dette er en persons studieretning, nasjonalitet og type datamaskin.

Kategoriske data med to kategorier kalles også binære data eller dikotome data. Tradisjonelt har kjønn, med valgalternativene «Mann» og «Kvinne», vært et vanlig eksempel på binære data. Spørsmålet «Ønsker du et regjeringsskifte ved neste valg?», med svaralternativene «Nei» og «Ja», er et annet eksempel.

Biltype, med kategoriene «Bensinbil», «Dieselbil», «Elbil» og «Hybrid» er eksempel på kategoriske data med flere kategorier. Dersom valgalternativene for kjønn defineres som «Mann», «Kvinne» og «Annet», vil heller ikke kjønn være binære data. Tilhørighet til politisk parti er enda et eksempel. Slike data kan også kalles nominale data.

En persons syn på en påstand, med svaralternativene «Helt uenig», «Litt uenig», «Verken enig eller uenig», «Litt enig» og «Helt enig» er eksempel på kategoriske data med ordnede kategorier. Karakterer på ungdomsskolen er et annet eksempel på ordnede kategorier, selv om kategoriene blir gitt tallverdier. Slike sorterte data kalles også ordinale data.

Behandling av ulike data

Statistikk handler i stor grad om å presentere og anaylere eksisterende data. Ulike typer data må både oppsummeres og analyseres ulikt.

Kontinuerlige data blir ofte presentert i et histogram eller et boksplott. De kan også presenteres ved hjelp av de beskrivende tallene gjennomsnitt og standardavvik (hvis fordelingen av verdier er relativt symmetrisk), eller median og kvartiler (hvis verdiene er skjevfordelte).

Et eksempel på symmetrisk fordelte data er høyden til norske rekrutter.

Et eksempel på skjevfordelte data er responstiden til ambulanser i Oppdal kommune i 2019. Responstiden er tiden det tar fra en telefon mottas på en nødsentral, til ambulansen er fremme hos den som trenger hjelp.

Kategoriske data blir ofte presentert i frekvenstabeller. Frekvenstabeller viser de ulike kategoriene sammen med antallet observasjoner (frekvensen) i hver kategori. Ofte vil en frekvenstabell også vise relativ frekvens, som er andelen eler prosentandelen av observasjoner i de ulike kategoriene.

Også i videre analyse av data, som sammenligning av grupper, utvikling over tid, eller beregning av effekter, må vi ta hensyn til hvilken type data vi har, og analysemetodene må velges deretter.

Les mer i Store norske leksikon

Kommentarer

Kommentaren din publiseres her. Fagansvarlig eller redaktør svarer når de kan.

Du må være logget inn for å kommentere.

eller registrer deg