Et korpus er en samling av elektroniske tekster som gjengir forekomster av språklige ytringer. Korpuset representer språkbruk som har funnet sted i en naturlig sammenheng i skriftlig eller muntlig form. Et slikt materiale kan brukes som datagrunnlag for forskning innen empiriske grener av språkvitenskapelige fag, slik som korpuslingvistikk, og til utvikling av dataapplikasjoner innen språkteknologi.

Et korpus inneholder et utvalg tekster fra en bestemt tekstkategori eller et visst bruksområde. Et slikt utvalg omfatter vanligvis det som er praktisk mulig å anskaffe av tekst- eller taledata på innsamlingstidspunktet, og korpuset er ikke nødvendigvis representativt for en populasjon i en streng statistisk forstand.

Les mer i Store norske leksikon

Kommentarer

Kommentarer til artikkelen blir synlig for alle. Ikke skriv inn sensitive opplysninger, for eksempel helseopplysninger. Fagansvarlig eller redaktør svarer når de kan. Det kan ta tid før du får svar.

Du må være logget inn for å kommentere.

eller registrer deg