bioinformatikk

Bioinformatikk er et fagfelt som bruker informatikk for å behandle biologisk informasjon. For eksempel kan analyse av en blodprøve fortelle om hvor en persons forfedre stammer fra, hvilke sykdommer vi er medfødt mottagelige for, eller om vi har vært på åstedet for en kriminell handling.

Faktaboks

uttale:
bˈioinformatˈikk

Bioinformatikk er spesielt viktig i forskningsområdene bioteknologi og medisin. Informatiske verktøy brukes veldig mye innen utvikling av legemidler, diagnostisering, persontilpasset medisin, og forskning på medisinsk genetikk og evolusjon. Bioinformatiske databaser som TCGA (The Cancer Genome Atlas) har for eksempel bidratt til å forbedre forståelse og behandling av kreftsykdommer.

Bioinformatikk brukes også til å finne ut mer om cellenes funksjoner og interaksjoner med hverandre på molekylært nivå. De siste tiårenes teknologiske utvikling innen molekylærbiologi har ført til at det skapes store mengder biologisk informasjon (for eksempel DNA-sekvenser) som er uhåndterlige uten informatiske verktøy.

Anvendelser

Mikromatriser kan studere titusenvis av gener samtidig, og skaper store datasett som det er nødvendig å behandle med informatiske verktøy.
Av /Shutterstock.
En fylogeni illustreres ofte som et slektskapstre. I dette eksempelet er art A og art B nærmere beslektet med hverandre enn noen av dem er til art C. Slike slektskapstrær kan skapes basert på millioner av sammenliknede punkter ved hjelp av bioinformatikk.
Fylogeni
Av .
Lisens: fri

I bioinformatikk er det vanlig å innhente store mengder rådata (ubehandlede data) fra biologiske eksperimenter. Data kan være DNA, RNA, proteiner, celler, molekylære prosesser og økologiske systemer, for eksempel gjennom en mikromatrise. Man kan også innhente diagnostiske bilder eller resultater fra medisinske prøver.

Ved å analysere dataene på ulike måter kan man få kunnskap om evolusjon og mutasjoner over tid. Det kan også genereres fylogenetiske trær som visualiserer evolusjonære forhold mellom dataene som sammenlignes. Dersom gener eller proteiner har tydelige likheter tyder det på at de har samme evolusjonære opphav (se fylogenetisk komparativ metode).

Forskningsområder som genomikk, transkriptomikk og proteomikk fokuserer på funksjoner og strukturer for henholdsvis genomer (genmateriale), transkriptomer (genuttrykk) og proteomer (uttrykte proteiner). Ved å utføre funksjons- og strukturanalyser på dette materialet kan man for eksempel predikere og modellere 3D-struktur hos nyoppdagede proteiner.

Verktøy og metoder

Flere metoder og verktøy benyttes for å oversette biologisk data til et format som kan brukes til beregninger og visualiseringer.

Analyser

De store mengdene data kan behandles ved hjelp av ulike analyser, for eksempel

  • Sekvensanalyse: Oppbygningen av gener, RNA-transkripter og proteiner
  • Transkripsjonsanalyse: Uttrykte gener og proteiner (se transkripsjon og genuttrykk)
  • Strukturanalyse: Analyse av struktur for DNA, RNA og proteiner
  • Nettverksanalyse: Matematisk representasjon av forbindelser mellom biologiske prosesser

Databaser

Materiale fra dataanalyser kan systematiseres i en database. Databaser oppdateres kontinuerlig og brukeren kan søke etter relevant informasjon. Databaser kan være spesialiserte, eller inneholde kunnskap om gener eller proteiner fra flere organismer.

Spesialiserte databaser kan for eksempel inneholde informasjon om somatiske mutasjoner i kreft, slik som for eksempel kreftdatabasen COSMIC. Det finnes også generelle databaser som har data om gener eller proteiners sekvenser, funksjoner eller strukturer tilgjengelig. Eksempler på disse er GenBank og UniProt som henholdsvis inneholder informasjon om DNA og proteiner.

Programvareutvikling

Programvare utvikles typisk i form av kommandolinjeverktøy, webapplikasjoner eller visualiseringsverktøy og er ofte gjort tilgjengelige som åpen kildekode.

Problemstillinger som står sentralt i bioinformatisk programvareutvikling er:

  • sammenligning av parvise eller flere sekvenser for å finne likhetsområder
  • sette sammen mindre sekvenser til en større komplett sekvens ved bruk av informasjon om overlapping
  • sette sammen mindre sekvenser til en større komplett sekvens ved bruk av en referansesekvens
  • identifisere varianter i en sekvens. Varianter kan være punktmutasjoner eller polymorfismer som SNP
  • optimalisering av hastighet
  • komprimering av data uten å miste informasjon
  • søkealgoritmer for databaser
  • algoritmer for å konstruere fylogenetiske trær
  • visualiseringsverktøy til å fremstille grafer, modeller og nettverk

Programvare utvikles for både allmenne problemstillinger og spesifikt for lokale forskningsprosjekter. Statistiske metoder anvendes på biologisk data for å teste ut en hypotese. Resultatet av analysen presenteres så ved hjelp av visualiseringsverktøy.

Statistiske metoder

Statistiske metoder anvendes bredt, for eksempel i design av hypotesetesting, simulering av biologiske systemer og som underliggende algoritmer i programvareutvikling. I programvare benyttes det ofte algoritmer innenfor maskinlæring og klyngeanalyse for å lete etter mønstre i datasett og systematisere enheter i grupper basert på likhet.

Historikk

Det tidligst kjente arbeidet i bioinformatikk er fra 1965 da Margaret Dayhoff utviklet det første oppslagsverket for proteinsekvenser, Atlas of Protein Sequence and Structure. I senere år ble algoritmer for sekvenssammenstillinger og flere databaser utviklet.

På slutten av 1980-tallet begynte human genomprosjektet som satte i gang en storstilt utvikling innen bioinformatikk. Prosjektet gikk ut på å sekvensere hele menneskegenomet. Det ble fullført i 2003 til en kostnad av en milliard dollar. Med nyere sekvenseringsteknologi og fremgang i bioinformatiske analyser av store mengder data, ville prosjektet til sammenligning i 2020 kostet omtrent 3000 dollar og vært ferdigstilt i løpet av en til to dager.

Les mer i Store norske leksikon

Eksterne lenker

Kommentarer

Kommentaren din publiseres her. Fagansvarlig eller redaktør svarer når de kan.

Du må være logget inn for å kommentere.

eller registrer deg