Parsing er innen IT det å dele opp data og strukturere informasjonen slik at den kan tolkes og bearbeides av dataprogrammer eller presenteres i en alternativ form for brukeren. Parsing er en form for maskinell syntaktisk analyse av data, og informasjonen som parses, er som regel tekst.

Faktaboks

Etymologi

fra engelsk parse 'analysere grammatisk'

Begrepet parsing benyttes om to ulike prosesser:

  • Gjøre informasjon som alt er strukturert eller annotert i en tekstlig form om til en maskin-prosesserbar struktur. Dette gjelder typisk bearbeiding av tabeller, CSV, JSON, XML, programkode og så videre
  • Gjøre om informasjon som er i ren tekstform til en maskin-prosesserbar struktur ved å maskinelt identifisere betydningen av ulike deler. Dette kan for eksempel være en matoppskrift eller en faktura.

Ved å foreta parsing får informasjonen som regel en høyere verdi. En matoppskrift i tekstform vil ha mest nytte når den tolkes av leseren, og maskinelt er man begrenset til utskrift eller søk etter ord og fraser i teksten. Dersom oppskriften derimot parses, slik at informasjon om ingredienser (antall, måleenhet, type), steketid, næringsinnhold og lignende identifiseres og lagres i egnede datastrukturer, får man for eksempel mulighet til å maskinelt skalere oppskriften ut i fra ønsket antall porsjoner eller å søke opp oppskrifter som har en bestemt sammensetning av næringsinnhold.

Bruksområder

Bruksområdene for parsing er svært mange, og så godt som alt av prosessering som benytter tekstfiler eller tekstlig datakommunikasjon er avhengig av parsing. Noen eksempler:

  • Når en kompilator eller interpreter skal kompilere og utføre programkode, må programkoden først parses for å identifisere de ulike kommandoene, parameterne og kontrollstrukturene.
  • Når man skal lese inn et serialisert objekt fra en datafil, slik som JSON eller en datakommunikasjon, må objektets verdier hentes ut ved å parse dataene. Selv enklere dataformater, som CVS, vil måtte parses når de leses inn basert på datastrukturen.
  • Når en faktura legges inn i nettbanken ved at man tar bilde av den, vil det foretas en parsing av informasjonen for å finne beløp, forfallsdato og annet etter at bildet er gjort lesbart via OCR.

Les mer i Store norske leksikon

Kommentarer

Kommentarer til artikkelen blir synlig for alle. Ikke skriv inn sensitive opplysninger, for eksempel helseopplysninger. Fagansvarlig eller redaktør svarer når de kan. Det kan ta tid før du får svar.

Du må være logget inn for å kommentere.

eller registrer deg