מילת עצירה: מילה שמושמטת מהטקסט מכיוון שהיא לא מוסיפה מידע למשפט

בעיבוד שפה טבעית ובאחזור מידע (אנ'), מילות עצירה (באנגלית: Stop words) הן מילים שמושמטות מהטקסט מכיוון שהן לא מוסיפות מידע למשפט.

מילת עצירה: היסטוריה, דוגמאות, באחזור מידע
ענן מילים שמציג את המילים הנפוצות בטוויטר בעברית, מרביתן מילות עצירה.

לא קיימת רשימה אוניברסלית מוסכמת של מילות עצירה המשמשת את כל כלי עיבוד השפה הטבעית, וכן לא קיימים כללים מוסכמים לזיהוי של מילים כאלו. ההגדרה של מילה כמילת עצירה יכולה להשתנות בהתאם לתחום שאליו שייך הטקסט ובהתאם למטרת העיבוד. גודל של רשימה כזו יכול לנוע בין מספר בודד של מילים, לבין כמה מאות מילים.

היסטוריה

קונספט דומה שימש ביצירת קונקורדנציות של התנ"ך. הקונקורדנציה העברית "יאיר נתיב" של יצחק נתן בן קלונימוס (אנ') כללה רשימת של מילות יחס ושל צירופים שאינם מוסיפים מידע, הדומים למילות עצירה מודרניות. מכיוון שהמילים הללו נפוצות מאוד, הרשימה לא כללה מראי מקום.

המונח מיוחס להנס פיטר לוהן, אחד מחלוצי אחזור המידע. לוהן הציג את הקונספט בהרצאתו על מיון אוטומטי של מילות מפתח משנת 1959, אך לא השתמש במונח "stop word", המונח החל להופיע בספרות זמן קצר לאחר מכן.

בשנת 1979 הציע ואן רייסברגן (אנ') את הרשימה הסטנדרטית הראשונה שלא התבססה רק על תדירות של הופעת מילים. הרשימה שהציע כללה 250 מילים באנגלית. בשנות ה-80 המציא מרטין פורטר (אנ') את תוכנת ה-Stemming שהתבססה על הרשימה שהציע ואן רייסברגן. הרשימה הזו משמשת כברירת מחדל במגוון יישומי תוכנה.

בשנת 1990 הציע כריסטופר פוקס רשימה של כמיליון מילים, המבוססת על מידע אמפירי על תדרי מילים בקורפוס בראון (אנ').

דוגמאות

בעברית, מילות עצירה עשויות לכלול מילות קישור ומילות יחס כמו "את", "של", "לעומת", "גם", "אחרי", "כל" וכדומה. גם כינויי גוף כמו "אני" או "הוא" בדרך כלל נכללים ברשימה כזו.

גם באנגלית ניתן לחלק את מילות העצירה לסוגים:

  • מגדירים (Determiner), כמו the, a, an, another
  • מילות קישור כמו for, nor, but, or, yet, so, both, just
  • מילות יחס כמו in, under, towards, before

באחזור מידע

בטרמינולוגיה של קידום אתרים במנועי חיפוש, מילות העצירה הן מילים נפוצות שמנועי חיפוש רבים נוהגים להשמיט בתהליך עיבוד הנתונים במהלך סריקה או אינדוקס, על מנת לחסוך במקום ובזמן.

מנועי חיפוש מסוימים משמיטים את המילים הללו משאילתת החיפוש. במקרים כאלו יכולה להיווצר בעיה בחיפוש ביטויים שכוללים מילות עצירה כמו "To be or not to be", ובפרט בשמות של להקות כמו "The Who", "The The" או "Take That". מנועי חיפוש אחרים מסירים גם מילים שנפוצות בחיפושים, כמו "רוצה", כדי לשפר את הביצועים.

השימוש במילות עצירה לקידום אתרים התפתח ביחד עם טכניקות מתחום למידת המכונה ועיבוד שפה טבעית, והולך ומשתפר עם השנים.

בעברית

יצירת רשימה של מילות עצירה בעברית היא משימה פחות טריוויאלית מאשר בשפות אחרות, בגלל העושר המורפולוגי של השפה. פעמים רבות מצטרפות למילים מוספיות אשר משנות קלות את משמעות המילה. בניגוד לשפה האנגלית, שבה מילות עצירה הן ברוב המקרים מילים שלמות כמו The או And, בעברית יידוע מצטרף למילה המיודעת - בדרך כלל בצורה ה"א הידיעה, אך לעיתים באמצעות כינויי שייכות או באמצעות ניקוד מיודע של אותיות השימוש בכ"ל. ו' החיבור גם היא מצטרפת כתחילית למילה.

ישנן מילים שבהיעדר ניקוד ניתן לקרוא במספר צורות. למשל, המילה "עם" - כאשר מדובר במילה "עִם", היא תהיה מושמטת כמילת עצירה, אך כאשר מדובר ב"עַם", היא לא תהיה מוגדרת כמילת עצירה במרבית הטקסטים. כאשר היעדר הניקוד נוסף על העושר המורפולוגי, עשויים להיווצר מקרים בעלי דו-משמעות מבלבלת, שניתן לפתור רק באמצעות ניתוח מקדים של המשפט. מקרה לדוגמה הוא המילה "בצל", שיכולה להיות מנוקדת "בָּצָל" ולהתייחס לירק, או להיגזר מאות השימוש ב' בתוספת המילה "צל", וליצור את המילה המנוקדת "בְּצֵל". את האחרונה ניתן גם ליידע, ובכך ליצור משמעות נוספת - המילה "בַּצֵל", שנגזרת מהאות ב' בתוספת ה"א הידיעה שמתחברות כמוספיות למילה "צל". במקרה הזה, ניתוח מקדים של המשפט היה יכול לזהות את הצורך בהפרדת המילה ל-"ב + צל" למשל, ולהשמיט את התחילית ב' בתהליך השמטת מילות העצירה.

בשל העושר המורפולוגי, פעמים רבות השמטת מילות העצירה צריכה להיות מלווה בפעולה נוספת כמו Stemming (אנ'), למטיזציה (אנ'), זיהוי חלקי הדיבר במשפט או חלוקה מוקדמת למורפמות.

הערות שוליים


Tags:

מילת עצירה היסטוריהמילת עצירה דוגמאותמילת עצירה באחזור מידעמילת עצירה בעבריתמילת עצירה הערות שולייםמילת עצירהen:Information retrievalאנגליתעיבוד שפה טבעית

🔥 Trending searches on Wiki עברית:

ניקולאה צ'אושסקוהמחאה נגד ממשלת ישראל השלושים וחמשנעמה לזימינמל התעופה בן-גוריוןנבחרת רומניה בכדורגליורוליגרוני דניאלחנוך מילביצקיהבונים החופשייםאביעד בקשיחופים של סודותגילה כנפי-שטייניץכאן 11ערד נירבית המקדש השנימנואל אקאנג'יאסון השרפה בוואדי סלוקיזאב אלקיןאנה זקדודי אמסלםאקטיביזם שיפוטיספירת העומראלון חזןאהוד אולמרטנווה מבטחליגת האלופותזכות עמידהממשלת ישראלאיימן עודהאפיקומןדרוזיםהמשמר הלאומי הישראליעמיחי אליהוסטטיקעבריתמאיר בנאיעובדיה יוסףשרה נתניהומערכת השמשמשרד המשפטיםמלחמת העולם הראשונהיש עתידנתן אלתרמןשלמה קרעינפתלי בנטאדוה דדוןרישי סונאקרומניהרצח אמיל גרינצווייגליאור רזאפרת רייטןמשל הצפרדע והעקרבאילון מאסקקופיקו (סדרת טלוויזיה)שמן קנולהההחלטה על תוכנית ההתנתקותאריק פינטואתיופיהציורי הסלע בוואל קמוניקהירדןיהורם גאוןמשה נסיםעוצבת האשיצחק הרצוגעוצמה יהודיתרותם שמירתום אבניאהרן ברקצביקה פיקברית המועצותפורום קהלתו' בניסןיחידה 504גבריאל באסויעקב זיו (מדען)יהדותשלומית מלכה🡆 More