ନ୍ୟାଚୁରାଲ ଲାଙ୍ଗୁଏଜ ପ୍ରୋସେସିଂ ବା ପ୍ରାକୃତିକ ଭାଷା ପ୍ରକ୍ରିୟାକରଣ କଂପ୍ୟୁଟର ବିଜ୍ଞାନ ଏବଂ ଆର୍ଟିଫିସିଆଲ ଇଣ୍ଟେଲିଜେନ୍ସର ସେହି ବିଭାଗକୁ କୁହାଯାଏ ଯାହା ମନୁଷ୍ୟର ଭାଷାଗୁଡ଼ିକ ସହ କମ୍ପ୍ୟୁଟରର କଥାବାର୍ତ୍ତାକୁ ବୁଝାଇଥାଏ। ଏହି ବିଭାଗର କିଛି ଜଟିଳ ସମସ୍ୟାଗୁଡ଼ିକ ହେଲା:
ଆର୍ଟିଫିସିଆଲ ଇଣ୍ଟେଲିଜେନ୍ସ |
ଗୁରୁତ୍ବପୂର୍ଣ ଲକ୍ଷ୍ୟଗୁଡିକ |
---|
ନଲେଜ ରିଜନିଂ |
ପ୍ଲାନିଂ |
ମେସିନ ଲର୍ଣିଂ |
ନ୍ୟାଚୁରାଲ ଲାଙ୍ଗୁଏଜ ପ୍ରୋସେସିଂ |
କମ୍ପ୍ୟୁଟର ଭିଜନ |
ରୋବୋଟିକ୍ସ |
ଆର୍ଟିଫିସିଆଲ ଜେନେରାଲ ଇଣ୍ଟେଲିଜେନ୍ସ |
ପଦ୍ଧତିଗୁଡିକ |
ସିମ୍ବଲିକ |
ଡିପ ଲର୍ଣିଂ |
ବାୟେସିଆନ ନେଟୱର୍କ |
ଏଭୋଲ୍ଯୁସନାରୀ ଆଲଗୋରିଦମ |
ଫିଲୋସଫି |
ଏଥିକ୍ସ |
ବଞ୍ଚିରହିବାର ଆଶଙ୍କା |
ଟ୍ଯୁରିଙ୍ଗ ପରୀକ୍ଷା |
ଚୀନ ଘର |
ବନ୍ଧୁତ୍ବପୂର୍ଣ ଏଆଇ |
ଇତିହାସ |
ଘଟଣାବଳୀ |
ପ୍ରଗତି |
ଏଆଇ ଶୀତ |
ପ୍ରଯୁକ୍ତି ବିଦ୍ୟା |
ପ୍ରୟୋଗ |
ପ୍ରକଳ୍ପ |
ପ୍ରୋଗ୍ରାମିଂ ଭାଷା |
ଗ୍ଲୋସରି |
ଗ୍ଲୋସରି |
ପ୍ରାୟତଃ ନିମ୍ନଲିଖିତ କାର୍ଯ୍ୟଗୁଡ଼ିକ ଏହି ବିଭାଗରେ ଅଧିକ ଗବେଷଣା କରାହୋଇଥାଏ। ଲକ୍ଷ କରନ୍ତୁ କିଛି କାର୍ଯ୍ୟଗୁଡ଼ିକର ନିତିଦିନିଆ ଜୀବନରେ ପ୍ରୟୋଗ ଅଛି, ଅନ୍ୟ ପକ୍ଷରେ ବାକି କାର୍ଯ୍ୟଗୁଡ଼ିକ ବଡ଼ ବଡ଼ କାମ କରିବାରେ ସହାୟତା କରିଥାନ୍ତି।
କିଛି ଲେଖାକୁ ବାକ୍ୟ ବା ଶବ୍ଦରେ ଖଣ୍ଡ ଖଣ୍ଡ କରିବାକୁ ଏହା ଦର୍ଶାଇଥାଏ । ଗୋଟିଏ ବାକ୍ୟରେ ଥିବା ସମସ୍ତ ଶବ୍ଦଗୁଡ଼ିକୁ ଅଲଗା ଅଲଗା କରି ରଖିବାକୁ ଟୋକେନାଇଜେସନ ବା ଶବ୍ଦ ଖଣ୍ଡ କରିବା କୁହାଯାଇଥାଏ ।
ମୂଳ ପୃଷ୍ଠା: ଷ୍ଟେମିଂ
ଏକ ଶବ୍ଦକୁ ତାହାର ଗଠନ ଅନୁସାରେ ମୂଳ ଅକ୍ଷରରେ ରୂପାନ୍ତରଣ କରିବାକୁ ଷ୍ଟେମିଂ କୁହାଯାଇଥାଏ ।
ଲେମାଟାଇଜେସନ ସାଧାରଣତଃ ଷ୍ଟେମିଂଠାରୁ ଉନ୍ନତଧରଣର ଅଟେ । ଏହା କେବଳ ଗୋଟିଏ ଶବ୍ଦକୁ ଲକ୍ଷ୍ୟରେ ନରଖି ଏହାର ପାଖାପାଖି ଶବ୍ଦଗୁଡ଼ିକୁ ମଧ୍ୟ ନଜରରେ ରଖି ସେମାନଙ୍କର ମୂଳ ଅକ୍ଷରରେ ରୂପାନ୍ତରଣ କରିଥାଏ । ଯଦିଓ ଓଡ଼ିଆ ଭାଷାରେ ଏପର୍ଯ୍ୟନ୍ତ ଶତ ପ୍ରତିଶତ ତ୍ରୁଟି ବିହୀନ ଲେମାଟାଇଜେସନ ହେଇପାରି ନାହିଁ ।
ମନେରଖନ୍ତୁ ଷ୍ଟେମିଂରେ କେବଳ ଶବ୍ଦର ଅକ୍ଷ୍ୟରମାନଙ୍କର ଗଠନ ଦେଖି ମୂଳ ରୁପକୁ ଅଣାଯାଇଥାଏ, କିନ୍ତୁ ଏଠାରେ ଶବ୍ଦଟି କେଉଁ ଉଦ୍ଦେଶ୍ୟର କୁହାଯାଇଛି ତାହା ଦେଖି ମୂଳ ରୁପକୁ ଅଣା ଯାଇଥାଏ। ଏହାଦ୍ୱାରା ସମାନ ଅର୍ଥ ଥିବା ଶବ୍ଦଗୁଡ଼ିକୁ ମିଳାଇବାରେ ସୁବିଧା ହୋଇଥାଏ ।
ବାକ୍ୟ ମଧ୍ୟରେ ଏଭଳି କିଛି ଶବ୍ଦ ଥାଏ ଯାହା ବାକ୍ୟଟିକୁ ସୁନ୍ଦର ଏବଂ ବାକ୍ୟରଣ ଠିକ କରିବାରେ ଉପଯୋଗ ହୁଏ କିନ୍ତୁ ବାକ୍ୟର ଅର୍ଥ ବୁଝିବାରେ ସେହି ଶବ୍ଦଗୁଡ଼ିକ କିଛି କାମରେ ଆସନ୍ତି ନାହିଁ, ଏହି ପ୍ରକାର ଶବ୍ଦକୁ ଷ୍ଟପୱାର୍ଡ କୁହାଯାଏ ।
ବାକ୍ୟଗୁଡ଼ିକୁ ସଫା କରିବା ନିମିତ୍ତ ସେଥିରେ ଥିବା ବିଭିନ୍ନ ବିରାମ ଚିହ୍ନ ବା ପଂଚୁଏସନ ମାର୍କକୁ ବାହାର କରାଯାଇଥାଏ । କିଛି ପଂଚୁଏସନ ମାର୍କ ହେଲା ପ୍ରଶ୍ନ ବାଚକ ଚିହ୍ନ, କମା, ପୂର୍ଣ୍ଣଚ୍ଛେଦ ଇତ୍ୟାଦି ।
ଗୋଟିଏ ଲେଖାରେ ଶବ୍ଦଟିଏ ଭିନ୍ନ ଭିନ୍ନ ରୂପରେ ରହିଥାଏ, ଯେପରିକି ବିଶେଷ୍ୟ, ନାମବାଚକ ବିଶେଷ୍ୟ, ବିଶେଷଣ, କ୍ରିୟା, କ୍ରିୟା ବିଶେଷଣ, ଚିହ୍ନ ଇତ୍ୟାଦି । ଏହି ସବୁ ମଧ୍ୟ ଭିନ୍ନ ଭିନ୍ନ ଉପାୟରେ ଗୋଟିଏ ବାକ୍ୟରୁ କଢ଼ାଯାଇପାରେ ।
ନେମଡ ଏଣ୍ଟିଟି ରେକଗନିସନ ବା ଏନ.ଇ.ଆର. ହେଉଛି ଏକ ପ୍ରକ୍ରିୟା ଯେଉଁଥିରେ ଆମେ ଏକ ଲେଖାକୁ ବିଶ୍ଳେଷଣ କରି ସେଥିରୁ ଦରକାରୀ ବିଶେଷ୍ୟ ଯଥା ଲୋକଙ୍କ ନାମ, ସ୍ଥାନର ନାମ କିମ୍ବା କୌଣସି ସଂସ୍ଥାର ନାମକୁ ବାହାର କରାଯାଇଥାଏ ।
ସେଣ୍ଟିମେଣ୍ଟ ଆନାଲିସିସ ବା ଭାବ ବିଶ୍ଳେଷଣ ହେଉଛି ଏକ ପ୍ରକ୍ରିୟା ଯାହାଦ୍ୱାରା ଲେଖା ବା କଥାବାର୍ତ୍ତାରେ ଥିବା ଭାବପ୍ରବଣତାକୁ ବାହାର କରାଯାଇଥାଏ । ମୁଖ୍ୟତଃ ଏହି ପ୍ରକ୍ରିୟାଦ୍ୱାରା ଗ୍ରାହକମାନେ ଦେଇଥିବା ମାତାମତରୁ ତାଙ୍କର ଭାବପ୍ରବଣତା ଉଦ୍ଧାର କରାଯାଇଥାଏ, ଯେପରିକି ଗ୍ରାହକଜଣକ ସେବା ଉପଲବ୍ଧକରି ଖୁଶି ଅଛନ୍ତି ବା ଦୁଃଖିତ ବା ରାଗି ଇତ୍ୟାଦି ।
ସ୍ୱତଃପ୍ରବୃତ ଭାବେ ଏକ ଲେଖା ବା କଥାର ସାରକଥା ବା ସାରାଂଶ ଉଦ୍ଧାର କରିବାର ପ୍ରକ୍ରିୟାକୁ ଅଟୋମେଟିକ ସମରାଇଜେସନ ବା ଅଟୋ ସମରାଇଜେସନ କୁହାଯାଇଥାଏ । ଏହି ମୁଖ୍ୟତଃ ଦୁଇ ଭାଗରେ ବିଭକ୍ତ ।
ଏଥିରେ ଲେଖାଟିରେ ଥିବା ଅଦରକାରୀ ଶବ୍ଦଗୁଡ଼ିକୁ ହଟେଇଦିଆଯାଇଥାଏ । କୌଣସି ନୂଆ ଶବ୍ଦ ଯୋଗ କରାଯାଇନଥାଏ । ଲେଖାଟିରେ ଥିବା ଶବ୍ଦଗୁଡ଼ିକୁ ଉପଯୋଗକରି ସାରାଂଶ ପ୍ରସ୍ତୁତ କରାଯାଇଥାଏ ।
ଏଥିରେ ମେସିନ ଲର୍ଣିଂ ବା ଡିପ୍ ଲର୍ଣିଂ ଉପଯୋଗକରି ଲେଖାଟିରେ ଥିବା ଶବ୍ଦ ସହିତ ନୂଆ ଶବ୍ଦ ମଧ୍ୟ ଯୋଗ କରାଯାଇ ସାରାଂଶ ପ୍ରସ୍ତୁତ କରାଯାଏ । ଏହି ପ୍ରକ୍ରିୟାରେ ସାରକଥା ନିରୂପଣ କରିବା କଷ୍ଟକର ଏବଂ ସମୟସାପେକ୍ଷ ଅଟେ ।
ଯଦି ଗୋଟିଏ ଲେଖାରେ ଦୁଇ ବା ଅଧିକ ଶବ୍ଦ ଗୋଟିଏହିଁ ବସ୍ତୁ, ସ୍ଥାନ ବା ବ୍ୟକ୍ତିଙ୍କୁ ସମ୍ବୋଧିତ କରୁଥାନ୍ତି ତେବେ ସେମାନଙ୍କର ସନ୍ଦର୍ଭ ଏକ ବୋଲି କୁହାଯାଇପାରେ । ଯନ୍ତ୍ରଟି କଥାବାର୍ତ୍ତା ସମୟରେ ଏହି ସନ୍ଦର୍ଭକୁ ନଜରରେ ରଖି ବାକ୍ୟର ଅର୍ଥ ବାହାର କରିବା ଗୁରୁତ୍ୱପୂର୍ଣ୍ଣ ଅଟେ । ଏହି ସନ୍ଦର୍ଭ ସମାଧାନକୁ କୋରିଫରେନ୍ସ ରିଜୋଲ୍ୟୁସନ କୁହାଯାଇଥାଏ ।
କଥାବାର୍ତ୍ତାର ଶବ୍ଦକୁ ଚିନ୍ହିବା ଏବଂ ତାହାକୁ ଲେଖାରେ ରୂପାନ୍ତରଣ କରିବା ଏହି ବିଭାଗ ଅନ୍ତର୍ଗତ ଅଟେ ।
This article uses material from the Wikipedia ଓଡ଼ିଆ article ନ୍ୟାଚୁରାଲ ଲାଙ୍ଗୁଏଜ ପ୍ରୋସେସିଂ, which is released under the Creative Commons Attribution-ShareAlike 3.0 license ("CC BY-SA 3.0"); additional terms may apply (view authors). ଦର୍ଶାଯାଇନଥିଲେ ସମସ୍ତ ବିଷୟବସ୍ତୁ CC BY-SA 4.0 ରେ ଉପଲବ୍ଧ । Images, videos and audio are available under their respective licenses.
®Wikipedia is a registered trademark of the Wiki Foundation, Inc. Wiki ଓଡ଼ିଆ (DUHOCTRUNGQUOC.VN) is an independent company and has no affiliation with Wiki Foundation.