N-Gram

N-gram – model językowy stosowany w rozpoznawaniu mowy.

N-gramy opierają się na statystykach i służą do przewidywania kolejnego elementu sekwencji. Stosowane są głównie do słów, jak również na przykład do fonemów (a także do zastosowań niezwiązanych z lingwistyką, jak np. biologia obliczeniowa).

Zastosowanie n-gramów wymaga zgromadzenia odpowiednio dużego zasobu danych statystycznych – korpusu. Utworzenie modelu n-gramowego zaczyna się od zliczania wystąpień sekwencji o ustalonej długości n w istniejących zasobach językowych. Zwykle analizuje się całe teksty i zlicza wszystkie pojedyncze wystąpienia (1-gramy, unigramy), dwójki (2-gramy, bigramy) i trójki (3-gramy, trigramy). Aby uzyskać 4-gramy słów potrzebnych jest bardzo dużo danych językowych, co szczególnie dla języka polskiego jest trudne do zrealizowania.

Po przeanalizowaniu odpowiednio dużej ilości tekstu zamienia się liczbę wystąpień na prawdopodobieństwa poprzez normalizację. Umożliwia to predykcje kolejnego elementu na podstawie sekwencji n dotychczasowych. Dla języka polskiego przeanalizowanie tekstów zawierających 300 000 000 słów daje dobry model 1-gramowy i satysfakcjonujący 2-gramowy. W celu utworzenia wiarygodnego modelu 3-gramowego potrzebne są dużo większe zasoby. Duża ilość przeanalizowanego tekstu podnosi jakość modelu, aczkolwiek istnieją także metody umożliwiające ulepszenie n-gramowych modeli bez dodatkowych danych, w oparciu o wygładzanie zebranych statystyk.

Głównymi zaletami n-gramów są prostota i skalowalność. Poprzez zmianę n można tym samym schematem otrzymywać zarówno modele niewymagające wielu danych treningowych, ale niedające dużej mocy predykcyjnej, jak i modele wymagające wielu danych, ale oferujące duże możliwości predykcyjne.

Przypisy

Tags:

FonemJęzykoznawstwoRozpoznawanie mowy

🔥 Trending searches on Wiki Polski:

Józef II HabsburgWalencjaZiemiaPowstanie warszawskieKorea PółnocnaBaltimoreTim RobbinsLyndon B. JohnsonVito BambinoTadeusz KościuszkoImperium OsmańskieBarbara NowackaPlatforma ObywatelskaPołudniowa AfrykaEswatiniDroga krzyżowaAdam Maciejewski (chirurg)Nowy JorkFranciszek (papież)Leszek MillerKwiat JabłoniMaciej KliszPetersburgMarta KaczyńskaHaitiNatalia LeszWładcy PolskiIII RzeszaRahimLista meczów reprezentacji Polski w piłce nożnej mężczyzn (od 2001)Robert LewandowskiKayahMarek WalczewskiBeata PoźniakMeksykAngliaCudzysłówPrezydent miasta stołecznego WarszawyLech KaczyńskiNa rauszuHotel ParadiseKanadaPrzesmyk suwalskiAudi A3SłoweniaTokioGramatyka języka rosyjskiegoZbigniew ZiobroVolkswagen GolfSzwecjaStan wojenny w Polsce (1981–1983)ZakładMercedes-Benz klasy SKłamstwo oświęcimskieKrakówFryderyk ChopinSłowianieMike TysonPiotr Zieliński (piłkarz)Adam MickiewiczPancerniki typu North CarolinaAndrzej StrejlauFagataAnna SeniukUkład SłonecznyPoranek kojotaBartosz SliszMagda GesslerEukariontyKlefedronM.I.GIndonezjaBiałystokKoenigseggFinlandiaBroń jądrowaMesjasz DiunyJan SztaudyngerKazimierz III Wielki🡆 More