korpuslingvistikk – Store norske leksikon

Korpuslingvistikk er en språkvitenskapelig metode som gjør bruk av skriftlige eller muntlige språkdata i elektronisk form. I korpuslingvistikken studerer forskere språklige fenomener i avgrensete samlinger av autentiske tekst- og taledata, såkalte korpus, og bruker dette som grunnlag for å belyse hypoteser om språkutvikling og variasjon.

Faktaboks

Uttale: k'orpuslingvist'ikk

Gjennom systematisk oppbygging av digitale korpus får språkforskere tilgang til forskningsressurser som kan brukes til komparative studier mellom ulike brukergrupper (for eksempel yngre og eldre språkbrukere, eller brukere fra ulike dialektområder) eller for å studere en bestemt variant av et språk (for eksempel avisspråket eller språkbruk innen et bestemt fagområde). Korpuslingvistikk er nært knyttet til fagområdene datalingvistikk og språkteknologi, hvor korpus brukes som grunnlag for statistisk baserte språkmodeller som trengs for sannsynlighetsberegning i forbindelse med ulike språkteknologiske applikasjoner. Foruten språkvitenskapelige studier og utvikling av språkteknologi er leksikografi- og terminologi-formål også vesentlige anvendelsesområder for korpus.

Det skilles mellom tekstkorpus og talekorpus. Sistnevnte kan være multimediale språkressurser og inneholder transkriberte taledata med koblinger til audio- eller videofiler. Foruten selve grunnteksten inneholder et korpus kodet informasjon om formelle språklige trekk på ulike analytiske nivå, slik som ordklasse, lemma og bøyningsformer, og metadata om språkbrukerne og brukskonteksten. Dette gjør det mulig å analysere forekomster av språklige variabler på tvers av brukergrupper og i henhold til lingvistiske parametre.

Flerspråklige korpus omfatter sammenlignbare korpus, som inneholder tekster av samme teksttype fra flere språk, og parallellkorpus, som inneholder originaltekster og oversettelser som er parallellstilte på ord- eller setningsnivå. Et annet viktig skille går mellom statiske og dynamiske korpus. Mens førstnevnte inneholder et finitt sett av tekster, er et dynamisk korpus stadig voksende og kan brukes til å studere språkets kontinuerlige utvikling.

Korpuslingvistikken har stått særlig sterkt innenfor den angloamerikanske lingvistiske forskningstradisjonen. De første korpusbaserte språkstudier kom på 1960-talet gjennom utviklingen av The Brown Corpus og The Lancaster-Oslo/Bergen Corpus, som representerer henholdsvis amerikansk og britisk engelsk skriftspråk. Korpuslingvistikken står i motsetning til datidens strukturalisme og har et syn på språket som studieobjekt som er grunnleggende forskjellig frå Noam Chomskys generative grammatikk. Ved The Survey of English Usage ved University College London ble det samlet inn taledata som senere ble utviklet til London Lund Corpus of Spoken English. Det er også utviklet en rekke norske korpus, som Norsk aviskorpus, Oslo Multilingual Corpus og en rekke talespråkskorpus.

Les mer i Store norske leksikon

Kommentarer

Kommentarer til artikkelen blir synlig for alle. Ikke skriv inn sensitive opplysninger, for eksempel helseopplysninger. Fagansvarlig eller redaktør svarer når de kan. Det kan ta tid før du får svar.

Du må være logget inn for å kommentere.

Fagansvarlig for Språkteknologi

Sondre Wold

Stipendiat, Universitetet i Oslo