stordata – Store norske leksikon

Stordata er store mengder med digitale data, samt teknologi og analysemetodikk knyttet til datamengder som er for store, for mangeartede og for ustrukturerte til at man kan benytte tradisjonelle teknikker for å hente ut informasjon.

Faktaboks

Etymologi: engelsk Big Data
Også kjent som: Big Data

Begrepet stordata er derfor nå tett koblet til data-analytikk (data analytics) der en bruker matematiske analyser og statistikk, kombinert med programvare basert på maskinlæring og dyplæring (deep learning), til å finne sammenhenger og trender. I dag snakker en oftest om stordata som store hendelsesbaserte datasamlinger samlet av Amazon, Google og sosiale medier som Facebook og Snapchat og/eller tingenes internett.

I tillegg til egenskaper knyttet til informasjonskvalitet og informasjonssikkerhet, er det vanlig å skille mellom ulike typer stordata ved hjelp av følgende egenskaper:

Volum: mengden av data
Innsamlingshastighet: hvor fort nye data genereres
Heterogenitet: hvor mange forskjellige typer data som samles inn, for eksempel bilder, aktivitet på sosiale medier, eller sensoravlesninger

Utfordringer

De viktigste utfordringene knyttet til bruk av stordata er:

forsvarlig håndtering av etiske og juridiske forhold
utvikling av analyse- og visualiseringsmetoder
utvikling av infrastruktur

Etiske og juridiske aspekter

Datamaterialet som benyttes i stordataanalyse kan være samlet inn langt tilbake i tid fra mange forskjellige kilder, og gjerne til helt andre formål enn det man oppdager under analysen. Mye stordataanalyse er i utgangspunktet gjenbruk av data. Dette kan bidra til verdifull innsikt, men stiller også høye krav til forsvarlig håndtering av dataene, bevissthet hos dem som avgir data og lovverk som regulerer virksomheten.

Datatilsynet i Norge har blant annet ansvar for å ivareta personvern i forbindelse med stordata. Et nytt begrep her er såkalt Big Data Governance, som handler om å sikre at personlig identifiserbar informasjon er pålitelig, beskyttet og klar til bruk.

Analysemetodikk

Stordata kan også være «store» i den forstand at de danner premissene for selve analyseprosessen. Ofte er datamaterialet så uoversiktlig at vi verken vet hva vi kan finne eller hvor vi skal lete. Da kan vi bruke kunstig intelligens, for eksempel nevrale nettverk, samt ulike visualiseringsteknikker for å betrakte dataene på forskjellige måter. Datamaterialet blir da et slags landskap hvor vi kan lete oss frem ved hjelp av egen erfaring og intuisjon.

Infrastruktur

Det å håndtere slike store datasett kan være svært ressurskrevende. Blant annet må man ha tilgang på utstyr og programvare som sikrer tilstrekkelig datakvalitet. Man må også disponere tilstrekkelig transport- og lagringskapasitet samt regnekraft for å kunne bearbeide og analysere dataene. Utbygging og utvikling av slike ressurser kan være både kostnadskrevende og teknologisk utfordrende.

Men selv om datamengdene er sterkt økende, gjør større firma som Amazon, Google og Facebook dette i dag i stor stil og ofte selger resultatene videre til annonsører og andre firma, som dermed får tilgang til relevante brukerdata.

Historie

Begrepet Big Data ble tatt i bruk i vitenskapelig litteratur på slutten av 1990-tallet. Meteorologer var blant de første som studerte slike datamengder. Ved hjelp av værobservasjoner over lang tid og datasimulering kan de studere hvordan mange forskjellige fysiske prosesser spiller sammen for å danne været rundt oss.

Utvikling av teknologi og infrastruktur for datainnsamling, datakommunikasjon og datalagring har ført til en drastisk økning av tilgangen på stordata. I dag samler vi inn store mengder data fra våre fysiske omgivelser og menneskelig aktivitet over hele kloden.

Les mer i Store norske leksikon

Eksterne lenker

Kommentarer

Kommentarer til artikkelen blir synlig for alle. Ikke skriv inn sensitive opplysninger, for eksempel helseopplysninger. Fagansvarlig eller redaktør svarer når de kan. Det kan ta tid før du får svar.

Du må være logget inn for å kommentere.

Fagansvarlig for IT

Pål Grønås Drange

Førsteamanuensis i algoritmer, Universitetet i Bergen