כריית מידע או כריית נתונים (באנגלית: Data mining) היא הפעלת אלגוריתם או תוכנית מחשב לצורך גילוי מידע הטמון בבסיסי נתונים קיימים, והסקת מסקנות מהצלבתו.
גילוי ידע בבסיסי נתונים הוא תהליך שנועד לחקור ולנתח כמות גדולה של מידע באמצעים אוטומטיים ככל שניתן כדי לגלות דפוסים תקפים חדשים, שימושיים (מקבלי ההחלטות יכולים להשתמש בדפוסים שהתגלו כדי לשפר תהליכים קיימים) ובעלי משמעות (מובנים למקבל ההחלטות). עם ההתפתחות המתמדת בעולם טכנולוגיית המידע, כשכמות המידע הדיגיטלי גדלה כל הזמן, עולה החשיבות של תחום כריית המידע, שבאמצעותו ניתן להפוך מידע לידע.
המושג כריית מידע נגזר מפעולת הכרייה הגאולוגית בה כורים באדמה כדי למצוא אוצרות טבע.
המונח "כריית נתונים" מתאר שלב אחד בתוך התהליך המכונה "גילוי ידע בבסיסי נתונים" - השלב בו מריצים אלגוריתמים במחשב. מלבד שלב כריית הנתונים כולל התהליך שלבים אחרים, חלקם קודמים לכריית הנתונים (כגון הכנת החיתוך) וחלקם עוקבים (כגון ניתוח התוצאות). הבעיות הנפוצות של כריית מידע הן בעיות סיווג, ניתוח אשכולות, רגרסיה ולמידת חוקי אסוציאציה.
במשך מאות שנים בני אדם זיהו "ידנית" תבניות ודפוסים במידע, אולם הצמיחה בנפח המידע בזמן המודרני הגבירה את הצורך בגישות אוטומטיות יותר. שיטות מוקדמות לזיהוי דפוסים במידע הן חוק בייס (המאה ה-18) וניתוח רגרסיה (המאה ה-19). התפתחות והזמינות של טכנולוגיית המחשב הגדילה את כמות המידע הנאסף והמאוחסן. עם הגדילה הן בגודל והן במורכבות של מאגרי המידע, נעשה שימוש הולך וגדל בעיבוד מידע אוטומטי. עיבוד זה נעזר בגילויים אחרים במדעי המחשב, כגון רשתות נוירונים, ניתוח אשכולות, אלגוריתמים גנטיים (שנות החמישים), עצי החלטה (שנות ה-60) ומכונות וקטורים תומכים (Support vector machine) (שנות השמונים). כריית מידע היא תהליך של שימוש בשיטות אלו על מידע כדי לזהות תבניות נסתרות במידע. בכריית מידע נעשה שימוש על ידי עסקים, מדענים וממשלות במשך שנים כדי לבחון נפחי מידע גדולים כגון מפקדי תושבים או מידע על קניות בסופרמרקט בשביל מחקרי שוק.
מאחר שכריית מידע נסמכת על גילוי תבניות הנמצאות בנתונים, מאגר הנתונים שעליו נעשה התהליך צריך להיות גדול דיו כך שיכיל את התבניות מחד גיסא, ומאידך גיסא תמציתי מספיק כדי שניתן יהיה לחפש בו בזמן סביר. מקור מקובל למידע כזה הוא מחסן נתונים (Data warehouse) או מחסן נתונים מחלקתי (Datamart).
לאחר מכן נעשה סינון של הנתונים בו מנוקים נתונים עם רעש או מידע חסר. מן הנתונים המסוננים מיוצרים וקטורי מאפיינים (Feature vector), וקטור אחד לכל תצפית. וקטור מאפיין הוא גרסה סיכומית של רשומת התצפית. כך לדוגמה תמונת פנים של 100 פיקסלים על 100 פיקסלים תכיל 10,000 ביטים של מידע גולמי. את התמונה ניתן להמיר לווקטור מאפיין על ידי זיהוי העיניים והפה בתמונה. בצורה זו ניתן להפחית את כמות המידע מ-10,000 ביטים לווקטור, לשלושה קודים המציינים את מיקומי העיניים והפה, וכך בשלב כריית המידע עצמו יידרש פחות עיבוד. בחירת המאפיין (או המאפיינים) תלויה במטרה; לפיכך בחירת המאפיינים הנכונים הכרחית לכריית מידע מוצלחת.
הווקטורים המאפיינים מחולקים לשתי סדרות: סדרת אימון וסדרת בדיקה. סדרת האימון משמשת לאימון האלגוריתם, וסדרת הבדיקה משמשת לאימות הדיוק של התבניות שנמצאו.
נגד חברה ישראלית ברייט דאטה הוגשו תביעות משפטיות על ידי חברות בין-לאומיות גדולות על שימוש בבסיס נתונים של חברות אלו לכריית מידע.
כריית המידע מטפלת לרוב באחת מהבעיות הבאות:
השלב האחרון בגילוי ידע מנתונים הוא אימות של התבניות שנמצאו על ידי האלגוריתמים של כריית המידע גם בטווח נתונים רחב יותר. לא כל התבניות הנמצאות על ידי האלגוריתמים כורי המידע הן בהכרח תקפות. לעיתים האלגוריתמים מוצאים תבניות בסדרת האימון שאינן מופיעות בסדרת המידע הכללית, תופעה הידועה כ-Overfitting. על מנת להתגבר על בעיה זו, בשלב ההערכה נבדקים הדפוסים מול סדרת הבדיקה שעליה לא אומנו האלגוריתמים. התבניות שנלמדו מחולצות מסדרת הבדיקה והפלט מושווה לפלט הרצוי. כך לדוגמה אלגוריתם כריית מידע לאיתור דואר זבל, אשר מבחין בין דואר רצוי לדואר זבל, יאומן על סדרת אימון של דוגמאות דואר. לאחר האימון, התבניות שאותרו יופעלו על סדרת הבדיקה של מכתבים שעליה לא אומנו, ומידת הדיוק של האלגוריתם יכולה להיקבע על פי כמות הפריטים שסווגו נכון.
This article uses material from the Wikipedia עברית article כריית מידע, which is released under the Creative Commons Attribution-ShareAlike 3.0 license ("CC BY-SA 3.0"); additional terms may apply (view authors). התוכן זמין לפי תנאי CC BY-SA 4.0 אלא אם כן נאמר אחרת. Images, videos and audio are available under their respective licenses.
®Wikipedia is a registered trademark of the Wiki Foundation, Inc. Wiki עברית (DUHOCTRUNGQUOC.VN) is an independent company and has no affiliation with Wiki Foundation.