مشقت بعدچندی

از چندین پدیده در حوزه‌هایی چون محاسبات عددی، نمونه‌برداری، ترکیبیات، یادگیری ماشینی، داده‌کاوی، و پایگاه داده‌ها با این نام یاد می‌شود. مضمون مشترک همهٔ این مشکلات آن است که با افزایش ابعاد، حجم فضا آنقدر سریع افزایش می‌یابد که داده‌های موجود پراکنده و تُنُک می‌شوند. این تنکی در هر روشی که مستلزم معنی‌داری آماری است مشکل‌ساز می‌شود. با افزایش ابعاد لازم است داده‌های مورد نیاز برای پشتیبانی از نتیجه هم اغلب به‌طور نمایی افزایش یابند تا نتیجهٔ حاصله از نظر آماری معقول و معتبر باشد. همچنین ساماندهی و جستجوی داده اغلب متکی بر شناسایی ناحیه‌هایی است که در آنجاها اشیاء گروه‌هایی با خواص مشابه تشکیل داده باشند؛ اما در داده‌های کثیرالابعاد همهٔ اشیاء از بسیاری جهات تُنُک و نامشابه به نظر می‌رسند که این امر از کارایی راهبردهای معمول و متعارف ساماندهی داده‌ها می‌کاهد.

اصطلاح مشقت بعدچندی را ریچارد بلمن هنگام کار کردن روی برنامه‌ریزی پویا وضع کرد و جا انداخت.

دامنه‌های تحت تاثیر

یادگیری ماشینی

مشقت چندبعدی در یادگیری ماشینی زمانی به چشم می‌آید که در حال کار کردن با داده‌هایی باشیم که نسبت ویژگی‌ها به تعداد آن‌ها بالا باشد. مشکلی که خود را در هنگام کار با داده‌هایی با ویژگی‌های بسیار زیاد خود را نشان می‌دهد، سخت بودن پیدا کردن هرگونه الگوی معنی‌داری هنگام آنالیز و تجسم کردن داده‌است. این پدیده فرایندآموزش یک مدل یادگیری ماشین را مختل می‌کند و تأثیر منفی روی دقت و سرعت آموزش مدل می‌گذارد. افزایش تعداد بعد در داده‌ها احتمال رخداد چند خطی بودن را افزایش می‌دهد.

پدیده هیوز

پدیدهٔ هیوز نشان می‌دهد که افزایش تعداد ویژگی‌های داده باعث بهبود عملکرد یک مدل طبقه‌بندی کننده می‌شود تا زمانی که به یک نقطهٔ آپتیمال برسیم. پس از آن اضافه کردن ویژگی‌های جدید با ثابت نگه داشتن تعداد داده باعث تنزل عملکرد مدل می‌شود.

روش‌های حل مشکل مشقت بعدچندی

کاهش ابعاد

کاهش ابعاد، به مجموعه روش‌هایی گفته می‌شود که با استفاده از آن‌ها داده‌ها را از فضای با ابعاد بالا به فضایی با بعد کمتر نگاشت می‌کنند به صورتی که داده‌های نگاشته شده دارای ویژگی‌های معنی‌داری از داده‌های اولیه ما باشند، به صورت ایده‌آل به نحوی که در داده‌های نهایی تنها دارای ویژگی‌های مستقل از هم باشیم به طوری که بتوان داده‌های اصلی را از آن‌ها بدست آورد.

مشقت بعدچندی — کاهش بعد داده‌های سه بعدی به دو بعد

روش‌های کاهش ابعاد به صورت کلی به دسته‌های خطی و غیرخطی تقسیم می‌شوند.

تغییر معیار شباهت

مشکلی که برای داده‌ها در فضا با ابعاد زیاد رخ می‌دهد میل کردن فاصلهٔ نقاط به صفر است؛ به همین دلیل الگوریتم‌هایی مانند الگوریتم کی-نزدیک‌ترین همسایه که بر اساس معیار شباهت کار می‌کنند اثرگذاری خود را در ابعاد بالاتر از دست می‌دهند. به این دلیل است که ابعاد را می‌توان در چنین الگوریتم‌هایی به عنوان «مشقت» در نظر گرفت.

یکی از روش‌هایی که می‌توان اثر تعداد زیاد بعد در داده را کاهش داد تغییر معیار شباهت استفاده در فضای برداری‌ای است که داده‌ها در آن قرار دارند.

یکی از معیارهای شباهت که اثر وجود ابعاد زیاد در داده را تا حدی کاهش می‌دهد، شباهت کسینوسی است که برای دو بردار غیر صفر به صورت مقابل محاسبه می‌شود:

$S_{C}(A,B):=\cos(\theta )={\mathbf {A} \cdot \mathbf {B} \over \|\mathbf {A} \|\|\mathbf {B} \|}={\frac {\sum \limits _{i=1}^{n}{A_{i}B_{i}}}{{\sqrt {\sum \limits _{i=1}^{n}{A_{i}^{2}}}}{\sqrt {\sum \limits _{i=1}^{n}{B_{i}^{2}}}}}},$

افزایش داده

افزایش داده (به انگلیسی: Data augmentation) در تحلیل داده‌ها تکنیک‌هایی هستند که برای افزایش تعداد داده با اعمال تغییراتی ساده و جزیی استفاده می‌شوند. این تکنیک علاوه بر کمک به مشکل بیش‌برازش سعی می‌کنند فضای داده‌ها را از پراکندگی خارج کنند تا بتوان رابطهٔ معناداری میان داده‌ها پیدا کرد.

همچنین نگاه کنید به

چند خطی(Multicollinearity)

جستارهای وابسته

منابع

Wiki contributors, "Curse of dimensionality," Wikipedia, The Free Encyclopedia, https://www.duhoctrungquoc.vn/wiki/en/Curse_of_dimensionality (accessed December 28, 2022).
Wiki contributors, "Data augmentation," Wikipedia, The Free Encyclopedia, https://www.duhoctrungquoc.vn/wiki/en/Data_augmentation (accessed December 28, 2022).
Wiki contributors, "Cosine similarity," Wikipedia, The Free Encyclopedia, https://www.duhoctrungquoc.vn/wiki/en/Cosine_similarity (accessed December 28, 2022).
Alonso, María & Malpica, José & Martinez-Agirre, Alex. (2011). Consequences of the Hughes phenomenon on some classification Techniques. American Society for Photogrammetry and Remote Sensing Annual Conference 2011.

This article uses material from the Wikipedia فارسی article مشقت بعدچندی, which is released under the Creative Commons Attribution-ShareAlike 3.0 license ("CC BY-SA 3.0"); additional terms may apply (view authors). محتوا تحت CC BY-SA 4.0 در دسترس است مگر خلافش ذکر شده باشد. Images, videos and audio are available under their respective licenses.
®Wikipedia is a registered trademark of the Wiki Foundation, Inc. Wiki فارسی (DUHOCTRUNGQUOC.VN) is an independent company and has no affiliation with Wiki Foundation.