Българският POS анотиран корпус (БулПосКор) е морфологично анотиран, общ едноезиков корпус от писмена реч за български, създаден от Секцията по компютърна лингвистика в Института за български език на БАН с големина 174 697 лексикални единици.
Морфологично анотираните корпуси са резултат от морфологично анализиране на всяка дума от даден текст. Към думите се прикрепват тагове (етикети, анотация), съдържащи информация за граматичния клас на дадена лексикална единица и за характеризиращите я стойности на граматичните категории.
Анотирането на БулПосКор се състои от първичен етап на автоматично приписване на тагове от тагсета на Българския граматичен речник (Коева 1998) и последващ етап на ръчно разрешаване на случаите на многозначност. Граматичният речник на българския език включва около 85 хиляди леми и над 1 милион словоформи, описани с граматичните им характеристики. Автоматичното анотиране е свързано с класифициране на токъните в БулПосКор по типове в зависимост от това дали са съставени от главни букви, малки букви, цифри, специални символи и т.н. Чрез правила за токънизация се разпознават и различават графични думи; съкращения; думи, съставени от комбинация от цифра, пунктуационен знак и букви (например 1-ви); правила за разпознаване на дати; на математически изрази; адреси на сайтове и електронни пощи и т.н. Изградена е система от възможните граматични значения за всеки пунктуационен знак. Експертната проверка на граматичната анотация и разрешаването на лексикално-раматичната многозначност, както и описателните множества, конструирани според принципите за деление на категории, типове и подтипове (Коева 1998), превръщат корпуса в ценен лингвистичен ресурс. Подробната морфосинтактична информация, въведена в тагсета, позволява лесното му адаптиране за тренирането и тестването на нови тагери независимо от подхода, използван за тяхното създаване.
Текстовото съдържание на корпуса е съставено според международните стандарти за езикова представителност. Българският POS анотиран корпус е представителна част от Българския Браун корпус (ББК) и е с големина 174 697 лексикални единици. От всеки файл на ББК е направена извадка от минимум 300 думи, като извадките са разширени докрай на изречение. По този начин структурата на Браун корпуса е запазена – текстовете са разделени в 15 категории от 2 типа – художествени и информативни. Думите в БулПосКор заедно с лексикално-граматичните им описания са достъпни за търсене онлайн.
Качеството на морфологично анотираните ресурси е определящо при създаването на компютърни програми за обработка на естествения език, като автоматично синтактично анотиране, автоматично резюмиране на текстове, автоматичен превод и т.н. Едни от най-важните и широко използвани приложения на морфологичното анотиране са програмите за проверка на правописа и автоматичното отделяне на срички.
This article uses material from the Wikipedia Български article БулПосКор, which is released under the Creative Commons Attribution-ShareAlike 3.0 license ("CC BY-SA 3.0"); additional terms may apply (view authors). Съдържанието е достъпно под условията на лиценза CC BY-SA 4.0, освен ако не е посочено друго. Images, videos and audio are available under their respective licenses.
®Wikipedia is a registered trademark of the Wiki Foundation, Inc. Wiki Български (DUHOCTRUNGQUOC.VN) is an independent company and has no affiliation with Wiki Foundation.