I feut doter ches langues éd mouéyins informatikes (corpus, lexikes, diction·noères) et d'otils d' traitemint pour foaire ène éyude pour el diffusion, el protection et pi l' inseignemint des langues.
Ch' traitemint du langache naturel (PNL) o traitemint automatique d'ches langues (TAL) ch'est un dsous-donmaine éd l’informatike, éd l’intelligince artifichielle, éd l’ingénierie d' l’informacion et pi éd l’interaccion honme-machine.
El tokenisacion ch'est ch' processus éd créachon éd ch'tons o éd division d’eune tchaîn•ne, d’un teske dins eune lisse éd ch'tons.
Ches ch'tons sont conme des parties o des bouts d' teske.
Un mot ch'est un ch'ton dins eune frase et pi eune frase ch'est un ch'ton dins un paragrafe.
El « lemmatisacion » ch'est arprésinter ches mots (o « lemmes ») édsous leu forme canonike. L' forme canonike est l' forme l' pus simpe d'un mot pour l' erpérer dins un dictionnoère.
Pèr exampe pour un verbe, cha s'ra sin infinitif. Pour un nom, cha s'ra sin masculin singulier.
El normalisacion et pi el construccion du dictionnoère permet d' n' pon prinde in compte des détails importants à ch' niviau local (ponctuacion, majuscules, conjugaison, ...)
O vut éstraire ches lemmes suivants : « pièche, avoèr, cinsier, picard, fanme ».
L' racinisation (stemming in inglés) ch'est pour n' conserver uniquemint l' rachine des mots. Oz abolit ches suffixes, préfixes et d'eutes coses des mots.
Lemmatiser n’est pon simpe. I feut foaire quate opéracions distinctes :
Plusieurs étapes sont donc nécessaires pour tokéniser ches teskes picards, notammint dins ches quate aspects :
quèques exampes :
• avoait, avoet, avait, avé, avot, awét, awè’t’, ...
Ch' projet RESTAURE i vut produire des mouéyins informatikes et des otils d' traitemint automatique pour troés langues régionales : alsacien, occitan et picard.
Ch' projet Atlas pan-picard informatisé a débutè in janvier 2018 pour troés ans à l’Univarsité Lille. Il est foait pour préparer l' future intégration d'ches atlas linguistikes et éthnografikes d' France dins ch' projet intarnational éd digitalisation et d' mise in réseau d'ches érsources lexicografikes.
This article uses material from the Wikipedia Picard article Traitemint automatique d'ches langues, which is released under the Creative Commons Attribution-ShareAlike 3.0 license ("CC BY-SA 3.0"); additional terms may apply (view authors). Le contenu est disponible sous licence CC BY-SA 4.0 sauf mention contraire. Images, videos and audio are available under their respective licenses.
®Wikipedia is a registered trademark of the Wiki Foundation, Inc. Wiki Picard (DUHOCTRUNGQUOC.VN) is an independent company and has no affiliation with Wiki Foundation.