نفرین ابعاد (به انگلیسی: Curse of dimensionality) به پدیدههای گوناگونی گفته میشود که هنگام تحلیل و ساماندهی دادهها در فضاهای با ابعاد بسیار بالا (اغلب با صدها یا هزاران بعد) روی میدهند، ولی نه در محیطهای با ابعاد بسیار پایین، مانند فضای فیزیکی سهبعدی، که در زندگی روزمره احساس میکنیم.
از چندین پدیده در حوزههایی چون محاسبات عددی، نمونهبرداری، ترکیبیات، یادگیری ماشینی، دادهکاوی، و پایگاه دادهها با این نام یاد میشود. مضمون مشترک همهٔ این مشکلات آن است که با افزایش ابعاد، حجم فضا آنقدر سریع افزایش مییابد که دادههای موجود پراکنده و تُنُک میشوند. این تنکی در هر روشی که مستلزم معنیداری آماری است مشکلساز میشود. با افزایش ابعاد لازم است دادههای مورد نیاز برای پشتیبانی از نتیجه هم اغلب بهطور نمایی افزایش یابند تا نتیجهٔ حاصله از نظر آماری معقول و معتبر باشد. همچنین ساماندهی و جستجوی داده اغلب متکی بر شناسایی ناحیههایی است که در آنجاها اشیاء گروههایی با خواص مشابه تشکیل داده باشند؛ اما در دادههای کثیرالابعاد همهٔ اشیاء از بسیاری جهات تُنُک و نامشابه به نظر میرسند که این امر از کارایی راهبردهای معمول و متعارف ساماندهی دادهها میکاهد.
اصطلاح مشقت بعدچندی را ریچارد بلمن هنگام کار کردن روی برنامهریزی پویا وضع کرد و جا انداخت.
مشقت چندبعدی در یادگیری ماشینی زمانی به چشم میآید که در حال کار کردن با دادههایی باشیم که نسبت ویژگیها به تعداد آنها بالا باشد. مشکلی که خود را در هنگام کار با دادههایی با ویژگیهای بسیار زیاد خود را نشان میدهد، سخت بودن پیدا کردن هرگونه الگوی معنیداری هنگام آنالیز و تجسم کردن دادهاست. این پدیده فرایندآموزش یک مدل یادگیری ماشین را مختل میکند و تأثیر منفی روی دقت و سرعت آموزش مدل میگذارد. افزایش تعداد بعد در دادهها احتمال رخداد چند خطی بودن را افزایش میدهد.
پدیدهٔ هیوز نشان میدهد که افزایش تعداد ویژگیهای داده باعث بهبود عملکرد یک مدل طبقهبندی کننده میشود تا زمانی که به یک نقطهٔ آپتیمال برسیم. پس از آن اضافه کردن ویژگیهای جدید با ثابت نگه داشتن تعداد داده باعث تنزل عملکرد مدل میشود.
کاهش ابعاد، به مجموعه روشهایی گفته میشود که با استفاده از آنها دادهها را از فضای با ابعاد بالا به فضایی با بعد کمتر نگاشت میکنند به صورتی که دادههای نگاشته شده دارای ویژگیهای معنیداری از دادههای اولیه ما باشند، به صورت ایدهآل به نحوی که در دادههای نهایی تنها دارای ویژگیهای مستقل از هم باشیم به طوری که بتوان دادههای اصلی را از آنها بدست آورد.
روشهای کاهش ابعاد به صورت کلی به دستههای خطی و غیرخطی تقسیم میشوند.
مشکلی که برای دادهها در فضا با ابعاد زیاد رخ میدهد میل کردن فاصلهٔ نقاط به صفر است؛ به همین دلیل الگوریتمهایی مانند الگوریتم کی-نزدیکترین همسایه که بر اساس معیار شباهت کار میکنند اثرگذاری خود را در ابعاد بالاتر از دست میدهند. به این دلیل است که ابعاد را میتوان در چنین الگوریتمهایی به عنوان «مشقت» در نظر گرفت.
یکی از روشهایی که میتوان اثر تعداد زیاد بعد در داده را کاهش داد تغییر معیار شباهت استفاده در فضای برداریای است که دادهها در آن قرار دارند.
یکی از معیارهای شباهت که اثر وجود ابعاد زیاد در داده را تا حدی کاهش میدهد، شباهت کسینوسی است که برای دو بردار غیر صفر به صورت مقابل محاسبه میشود:
افزایش داده (به انگلیسی: Data augmentation) در تحلیل دادهها تکنیکهایی هستند که برای افزایش تعداد داده با اعمال تغییراتی ساده و جزیی استفاده میشوند. این تکنیک علاوه بر کمک به مشکل بیشبرازش سعی میکنند فضای دادهها را از پراکندگی خارج کنند تا بتوان رابطهٔ معناداری میان دادهها پیدا کرد.
This article uses material from the Wikipedia فارسی article مشقت بعدچندی, which is released under the Creative Commons Attribution-ShareAlike 3.0 license ("CC BY-SA 3.0"); additional terms may apply (view authors). محتوا تحت CC BY-SA 4.0 در دسترس است مگر خلافش ذکر شده باشد. Images, videos and audio are available under their respective licenses.
®Wikipedia is a registered trademark of the Wiki Foundation, Inc. Wiki فارسی (DUHOCTRUNGQUOC.VN) is an independent company and has no affiliation with Wiki Foundation.