Korpuslingvistikk, språkvitenskapelig metode som baserer seg på bruk av skriftlige eller muntlige språkdata i elektronisk form. En grunnleggende antakelse i korpuslingvistiske studier er at observerbare språklige fenomener lar seg generalisere på grunnlag av avgrensete samlinger av autentiske tekst- og taledata. Et korpus er et utsnitt av naturlige forekomster av språklige ytringer som representerer en populasjon som omfatter all språklig produksjon innenfor en viss tekstkategori eller et visst bruksområde. Ideelt sett skal et korpus være statistisk representativt for den sjanger eller det bruksområdet korpuset representerer. I praksis er mange korpora (korpuser) basert på en mer pragmatisk tilnærming og ikke nødvendigvis representative i en streng statistisk forstand, men inneholder det som er praktisk mulig å anskaffe av grunndata på innsamlingstidspunktet.

Gjennom systematisk oppbygging av digitale korpora får språkforskere tilgang til forskningsressurser som er anvendbare til komparative studier mellom ulike brukergrupper (f.eks. yngre og eldre språkbrukere, eller brukere fra ulike dialektområder) eller for å studere en bestemt variant av et språk (f.eks. avisspråket). Korpuslingvistikk er nært knyttet til fagområdene datalingvistikk og språkteknologi, hvor korpora brukes som grunnlag for statistisk baserte språkmodeller som trengs for sannsynlighetsberegning i forbindelse med ulike språkteknologiske applikasjoner. Foruten språkvitenskapelige studier og utvikling av språkteknologi er leksikografi- og terminologi-formål også vesentlige anvendelsesområder for korpora.

Det skilles mellom tekstkorpora og talekorpora. Sistnevnte er gjerne multimediale språkressurser og inneholder transkriberte taledata med koblinger til audio- eller videofiler. Foruten selve grunnteksten inneholder et korpus kodet informasjon om formelle språklige trekk på ulike analytiske nivå, slik som ordklasse, lemma og bøyingsformer, og metainformasjon om språkbrukerne og brukskonteksten. Dette gjør det mulig å analysere forekomster av språklige variabler på tvers av brukergrupper og i henhold til lingvistiske parametre.

Kategorien flerspråklige korpus omfatter sammenlignbare korpus, som inneholder tekster av samme teksttype fra flere språk, og parallellkorpus, som inneholder originaltekster og oversettelser som er parallellstilte på ord- eller setningsnivå. Et annet viktig skille går mellom statiske og dynamiske korpus. Mens førstnevnte inneholder et finitt sett av ferdigredigerte tekster, er et dynamisk korpus stadig voksende og kan brukes til å studere språkets kontinuerlige utvikling.

Korpuslingvistikken har stått særlig sterkt innenfor den angloamerikanske lingvistiske forskningstradisjonen. De første korpusbaserte språkstudier kom på 1960-talet gjennom utviklingen av The Brown Corpus og The Lancaster-Oslo/Bergen Corpus, som representerer henholdsvis amerikansk og britisk engelsk skriftspråk. Korpuslingvistikken står i motsetning til datidens strukturalisme og har et syn på språket som studieobjekt som er grunnleggende forskjellig frå Noam Chomskys generative grammatikk. Ved The Survey of English Usage ved University College London ble det samlet inn taledata som senere ble utviklet til London Lund Corpus of Spoken English. Det er også utviklet flere norske korpora, blant annet Norsk aviskorpus, Norsk talekorpus og Oslo-korpuset.

Foreslå endringer i tekst

Foreslå bilder til artikkelen

Kommentarer

Har du spørsmål om eller kommentarer til artikkelen?

Kommentaren din vil bli publisert under artikkelen, og fagansvarlig eller redaktør vil svare når de har mulighet.

Du må være logget inn for å kommentere.