Моўная Мадэль

Першая значная статыстычная моўная мадэль была прапанавана ў 1980 годзе і цягам дзесяцігоддзя кампанія IBM правяла шэраг эксперыментаў у «стылі Шэнана» (Shannon-style), у якіх патэнцыйныя крыніцы для паляпшэння мадэлявання моў вызначаліся праз назіранне і аналіз здольнасці людскіх падвопытных прадказваць або выпраўляць тэксты.

Моўныя мадэлі карысныя для розных задач, у тым ліку для распазнаванне маўлення (дапамагаючы прадухіліць прадказанні малаімаверных, напрыклад, бессэнсоўных, паслядоўнасцей), машыннага перакладу, генеравання натуральнай мовы^[en] (стварэнне тэксту, найбольш падобнага на чалавечы), аптычнага распазнаванне сімвалаў^[en], распазнавання почырку^[en], індукцыі граматыкі^[en]. і інфармацыйнага пошуку^[en].

Вялікія моўныя мадэлі^[en] з’яўляюцца сёння найбольш прасунутай іх формай, з’яўляючыся камбінацыяй большых набораў даных (часта выкарыстоўваючы словы, узятыя з агульнадаступнага інтэрнэту), праманакіраваных нейронных сетак^[en] і трансформераў^[en]. Яны замянілі сабой мадэлі, заснаваныя на рэкурэнтных нейронных сетках^[en],якія раней замянілі чыста-статыстычныя мадэлі, такія як слоўныя n-грамныя моўныя мадэлі^[en].

Чыста-статыстычныя мадэлі

Мадэлі, заснаваныя на слоўных n-грамах

Экспаненцыйныя

Моўныя мадэлі з максімумам энтрапіі^[en] кадзіруюць узаемаадносіны паміж словам і гісторыяй n-грама, ужываючы функцыі адзнак. Ураўненне будзе мець наступны выгляд

P(w_{m}\mid w_{1},\ldots ,w_{m-1})={\frac {1}{Z(w_{1},\ldots ,w_{m-1})}}\exp(a^{T}f(w_{1},\ldots ,w_{m}))

дзе $Z(w_{1},\ldots ,w_{m-1})$ — гэта функцыя разбівання^[en], $a$ — гэта вектар параметраў, а $f(w_{1},\ldots ,w_{m})$ — функцыя адзнак. У найпрасцейшым выпадку функцыя адзнак будзе індыкатарам прысутнасці пэўнага n-грама. Карысна ўжываць апрыёрнае размеркаванне^[en] на $a$ або нейкую форму рэгулярызацыі^[en].

Лог-білінейная мадэль — яшчэ адзін прыклад экспаненцыйнай моўнай мадэлі.

Нейронныя мадэлі

Рэкурэнтныя нейронныя сеткі

Бесперарыўныя прадстаўленні або убудаванне слоў^[en] ствараюцца ў моўных мадэлях, заснаваных на рэкурэнтных нейронных сетках^[en] (вядомыя таксама як моўныя мадэлі з бесперапыннай прасторай). Такія ўбудаванні ў бесперапыннай прасторы дапамагаюць змякчыць праклён памернасці^[en], які з’яўляецца следствам таго, што колькасць магчымых паслядоўнасцей слоў павялічваецца ў экспанентна^[en] разам з памерам слоўнікавага запасу, што ў будучым выклікае праблему разрэджанасці даных. Нейронныя сеткі абыходзяць гэту праблему прадстаўляючы словы як нелінейныя камбінацыя вагаў у нейроннай сетцы.

Вялікія моўныя мадэлі

Ацэнка і параўнаўчыя тэсты

Ацэнка якасці моўных мадэляў часцей робіцца праз параўнанне створаных чалавекам з тыпічных моўна-арыентаваных задач эталонаў. Іншыя, менш рэгламентаваныя тэсты якасці даследуюць унутраны характар моўнай мадэлі або параўноўваюць дзве такія мадэлі. Паколькі ў моўных мадэлях звычайна закладаецца іх дынамічнасць і навучанне з даных, якія яны бачаць, некаторыя прапанаваныя мадэлі даследуюць хуткасць навучання, напр., шляхам праверкі крывых навучання.

Для ацэнкі сістэм апрацоўкі мовы былі распрацаваны розныя наборы даных. Да іх адносяцца:

Корпус лінгвістычнай прымальнасці
GLUE benchmark
Microsoft Research Paraphrase Corpus
Шматжанравае мадэляванне вываду на натуральнай мове
Пытанні праз інтэрфейсы на натуральнай мове
Пары пытанняў-адказаў Quora
Распазнаванне імпліцытных ведаў у тэкстах
Эталон семантычнага тэкставага падабенства
Тэст адказу на пытанні SQuAD
Stanford Sentiment Treebank
Winograd NLI
BoolQ, PIQA, SIQA, HellaSwag, WinoGrande, ARC, OpenBookQA, NaturalQuestions, TriviaQA, RACE, MMLU (Massive Multitask Language Understanding), BIG-bench hard, GSM8k, RealToxicityPrompts, WinoGender, CrowS-Pairs. (LLaMa Benchmark)

Моўная Мадэль

Чыста-статыстычныя мадэлі

Мадэлі, заснаваныя на слоўных n-грамах

Экспаненцыйныя

Нейронныя мадэлі

Рэкурэнтныя нейронныя сеткі

Вялікія моўныя мадэлі

Ацэнка і параўнаўчыя тэсты

Крыніцы

Дадатковая літаратура

Tags:

🔥 Trending searches on Wiki Беларуская: