Korpuslingvistika

Korpuslingvistika on keeleteaduse suund, mis tegeleb loomuliku keele tekstikogude (keelekorpuste) koostamise, töötlemise ja kasutamisega.

Tekstikogude koostamisel kasutatakse arvutitehnoloogiat.

Ajalugu

Esimeseks suureks keelekorpuseks on Browni korpus (inglise Brown Corpus), mis loodi 1960-aastatel Browni Ülikoolis ja sisaldas 500 teksti fragmenti, igas 2000 sõna, mis olid avaldatud USAs inglise keeles 1961. aastal. See 1 miljoni sõna sisaldav korpus sai standardiks korpuste loomisel teistes keeltes. Analoogilise mudeli järgi loodi näiteks 1980-aastatel Uppsala Ülikoolis vene korpus.

Miljonisõnaline maht on piisav ainult üsna sagedaste sõnade leksikograafiliseks kirjeldamiseks, kuna sõnad ja nende grammatilised konstruktsioonid ei kordu sellises mahus väga sageli. Näiteks niisugused igapäevased sõnad nagu inglise polite (viisakas) või sunshine (päikesepaiste) kohtuvad Browni korpuses ainult 7 korda, väljend polite letter ainult üks kord, aga niisugused püsivad väljendid nagu polite conversation, smile ja request mitte kordagi.

Nimetatud põhjustel ning seoses arvutustehnika võimsuste kasvamisega tekkis võimalus töötada suurema mahuga tekstidega. 1980-aastatel tehti mitu katset koostada suuremaid korpuseid. Üks neist oli Birmingemi Ülikooli projekt nimega Bank of English.

Välislingid

Tags:

KeelekorpusKeeleteadusLoomulik keel

🔥 Trending searches on Wiki Eesti:

Ladinakeelsete väljendite loendEesti keelHarju maakondNüüdisaegsed olümpiamängudRooma numbridRoomaPostimeesMaisOderPõderDžaulEduard OdinetsElektrikitarrPutukadRaivo HeinJutumärgidWerol TehasedKättemaksukontorEdgar SavisaarMart LaarPaideLääne-Viru maakonna veekogude loendEesti Konservatiivne RahvaerakondBayeux' vaipIru soojuselektrijaamEgiptusAnthony GiddensIslamIlmutusAafrikaHeido VitsurKreekaHektarTšehhiHapnikKarl RistikiviNastikIndiaEuroEesti KeskerakondKoonuselõigeHürrem SultanAthenaEesti lippXV RiigikoguTallinna linnavolikoguLäti linnade loendTekstiilide loendElina NetšajevaVenemaaKolloidhõbeRiina SolmanHendrik ToompereItaaliaSeenedKevade (film)Rehepapp (Kivirähk)Harilik kadakasKatrin ViirpaluVictoria (Suurbritannia kuninganna)🡆 More