Лінійний Розділювальний Аналіз

Лінійний дискримінантний аналіз (англ.

З його допомогою будуються лінійні комбінації предикторів, що відділяють області одного класу від іншого. LDA працює для будь-якої кількості класів, на відміну від таких методів як логістична регресія, що в першу чергу використовуються для бінарної класифікації.

Історія

Лінійний дискримінативний аналіз базується на використанні критерія Фішера, який був описаний британським статистиком і біологом Рональдом Фішером у задачі бінарної класифікації, розділення ірисів за розмірами частин квітки.

У 1948 метод був узагальнений індійським математиком Кальямпуді Радхакришною Рао[en] для довільної кількості класів.

Алгоритм

LDA шукає проєкцію даних у деякий підпростір розмірності Лінійний Розділювальний Аналіз  або менше (де Лінійний Розділювальний Аналіз  — кількість класів, Лінійний Розділювальний Аналіз  — кількість ознак). Підпростір обирається так, щоб проєкції розподілів, що відносяться до різних класів, були розділені у ньому якомога сильніше. Таким чином класи розділюються за правилом:

  1. Кожному класу ставиться у відповідність деяка функція вигляду Лінійний Розділювальний Аналіз . Ці функції називаються дискримінантними функціями. Матриця Лінійний Розділювальний Аналіз  є матрицею проєкції, Лінійний Розділювальний Аналіз .
  2. Кожна точка простору ознак класифікується відповідно до того, яка саме з дискримінантних функцій має найвище значення у ній.

Через те що всі функції є лінійними по Х, границі між областями простору, що відповідають різним класам (decision surface) завжди є гіперплощинами.

У найпростішому випадку двох класів підпростір є одномірним — прямою, і розділення відбувається за правилом :

  • Лінійний Розділювальний Аналіз 
  • Лінійний Розділювальний Аналіз 

Геометричний сенс функції Лінійний Розділювальний Аналіз  в такому випадку — відстань від гіперплощини розділяючої класи до точки даних.

Дискримінантні функції будуються так, щоб зробити розділення класів якомога простішим. Існує кілька алгоритмів, які вирішують цю задачу, найвідомішими є дискримінантний аналіз Фішера і баєсівський класифікатор. У деяких випадках вони дають однакові результати, проте загалом це різні алгоритми.

Дискримінантний аналіз Фішера

Лінійний Розділювальний Аналіз 
Приклад бінарної класифікації за допомогою класифікатора Фішера. Точковий графік двох класів та гістограма розподілів при проєкції на прямі різної напрямленості

Історично першою спробою побудувати лінійну дискримінантну модель була модель запропонована Фішером.

Нехай є два класи. Тоді підпростором найкращого розділення буде такий, що при проєктуванні на нього даних максимальним є відношення відстані між середнім значенням класів і розкидом всередині класу.

Нехай Лінійний Розділювальний Аналіз  — елементи класу Лінійний Розділювальний Аналіз , а Лінійний Розділювальний Аналіз  — кількість елементів у цьому класі. Тоді середнє значення по класу дорівнює

    Лінійний Розділювальний Аналіз 

Лінійний Розділювальний Аналіз  в цьому записі — p-вимірний вектор

середнє проєкції класу (скаляр)

    Лінійний Розділювальний Аналіз 

розкид всередині класу

    Лінійний Розділювальний Аналіз 

розкид всередині проєкції елементів класу

    Лінійний Розділювальний Аналіз 

Лінійний Розділювальний Аналіз 

Лінійний Розділювальний Аналіз 

Тоді функція, максимум якої необхідно знайти:

    Лінійний Розділювальний Аналіз 

Величину Лінійний Розділювальний Аналіз  називають також міжкласовим розкидом(between-class scatter), тоді як Лінійний Розділювальний Аналіз  — внутрішньокласовим розкидом (within-class scatter matrix).

Продиференціювавши Лінійний Розділювальний Аналіз  по Лінійний Розділювальний Аналіз  і прирівнявши результат до нуля отримуємо:

    Лінійний Розділювальний Аналіз 

ділимо на Лінійний Розділювальний Аналіз :

    Лінійний Розділювальний Аналіз 

тоді

    Лінійний Розділювальний Аналіз 
    Лінійний Розділювальний Аналіз 

оскільки Лінійний Розділювальний Аналіз  — скаляр, задача зводиться до пошуку власних векторів. Найкраще розділення буде досягнуто при проєкції на вектор, що відповідає найбільшому власному значенню.

У випадку двох класів також є більш простий спосіб оцінки w: через те що важливий лише напрямок вектору w, його можна визначити виходячи з того, що: Лінійний Розділювальний Аналіз , де а — скаляр. Таким чином: Лінійний Розділювальний Аналіз 

Модель Фішера працює у дуже широких межах, оскільки має досить мало вимог до розподілу даних, проте вона дає чіткого способу визначити границі класів після проєкції. Найбільш загальний принцип вибору полягає в тому, щоб кількість помилок першого і другого роду при класифікації була однаковою. В найпростішому варіанті гіперплощина розташовується рівно посередині між середніми значеннями класів.

Лінійний Розділювальний Аналіз 
При використанні класифікаторів один-проти-всіх жовта область не буде віднесена до жодного класу, а сині — до більш ніж одного класу
Лінійний Розділювальний Аналіз 
При використанні попарних класифікаторів, у жовтій області утвориться цикл 1>2>3>1

Підхід може бути застосований і до більше ніж двох класів. У такому випадку, матриця проєкції Лінійний Розділювальний Аналіз  має розміри Лінійний Розділювальний Аналіз , а матриця міжкласового розкиду визначається як

    Лінійний Розділювальний Аналіз ,

де μ — загальне середнє по всіх класах.

У цьому випадку, w складається з Лінійний Розділювальний Аналіз  стовпчиків, що відповідають найбільшим власним векторам матриці Лінійний Розділювальний Аналіз .

Головним чином такий алгоритм для великої кількості класів використовується як спосіб зниження розмірності (дані проєціюються на гіперплощину нижчої розмірності проте класифікатор не будується).

Щоб все ж побудувати модель багатокласової класифікації за цим підходом можна створити Лінійний Розділювальний Аналіз  окремих класифікаторів, які будуть попарно порівнювати класи, або ж Лінійний Розділювальний Аналіз  класифікаторів, кожен з яких робить класифікацію один-проти-решти. Недоліком цього підходу є те, що при ньому деякі зони можуть мати невизначений клас — або через те що створюються цикли класифікацій (клас 2 більш ймовірний ніж клас 1, клас 3 більш ймовірний ніж клас 2, клас 1 більш ймовірний ніж клас 3), або через те, що жоден з класифікаторів один-проти-всіх не визначає точку як належну до "свого" класу.

Тому для класифікації у викпадку 3 і більше класів зазвичай використовують описаний нижче баєсів класифікатор.

Баєсів класифікатор

Баєсів класифікатор застосовується до більш вузького випадку: якщо в усіх класах точки мають однаковий (багатовимірний нормальний) розподіл, що відрізняється лише середнім, тобто, матриці коваріації точок всередині кожного класу однакові.

Часто коли говорять про лінійний розділювальний аналіз, то мається на увазі саме баєсівський класифікатор.

Згідно з теоремою Баєса, ймовірність того, що деяке спостереження Лінійний Розділювальний Аналіз  належить до класу K, можна оцінити, знаючи розподіл значень всередині класів і ймовірності самих класів Лінійний Розділювальний Аналіз :

    Лінійний Розділювальний Аналіз 

Багатовимірний нормальний розподіл точок що відносяться до класу Лінійний Розділювальний Аналіз  задається як:

    Лінійний Розділювальний Аналіз 

де Лінійний Розділювальний Аналіз , а Лінійний Розділювальний Аналіз  — матриця коваріації.

Виразимо тоді логарифм співвідношення ймовірностей того, що спостереження x відноситься до класу Лінійний Розділювальний Аналіз  і Лінійний Розділювальний Аналіз , припускаючи що матриці коваріації Лінійний Розділювальний Аналіз  однакові для всіх класів (через що члени з Лінійний Розділювальний Аналіз  скорочуються:

    Лінійний Розділювальний Аналіз 

Тоді функції

    Лінійний Розділювальний Аналіз 

і будуть питомими дискримінантними функціями. Спостереження належить до того класу, який має максимальну дискримінантну функцію у відповідній точці.

Параметри функції визначаються з вибіркових даних:

    Лінійний Розділювальний Аналіз 
    Лінійний Розділювальний Аналіз 
    Лінійний Розділювальний Аналіз 

Вимоги до даних

Для всіх варіантів LDA дані очікуються нормалізовані, з варіацією всіх ознак рівною одиниці. Для баєсівського класифікатора також важливо щоб усі класи мали багатовимірний гаусів розподіл а матриця коваріації була однаковою в усіх класах.

Аналіз чутливий до викидів тому бажано перевірити дані і видалити їх до початку роботи.

Варіації алгоритму

Квадратичний дискримінантний аналіз

Якщо матриці коваріації не рівні, то скорочення квадратичних членів не відбувається. Відповідно, границі між класами будуть описуватися кривими другого порядку а не гіперплощинами, а кількість параметрів можелі сильно зросте. Така модель називається квадратичним дискримінантним аналізом (QDA).

Схожі результати можна отримати, додаючи в модель складні предиктори, наприклад, якщо до моделі з двома предикторами Лінійний Розділювальний Аналіз  і Лінійний Розділювальний Аналіз  додати ще три, які дорівнюють Лінійний Розділювальний Аналіз , отримане лінійне рівняння відносно п'яти параметрів буде квадратичним відносно Лінійний Розділювальний Аналіз  і Лінійний Розділювальний Аналіз . Проте, ці два підходи не є ідентичними, і отримані поверхні розділення класів різні, хоча часто різниця є невеликою.

Можливі проміжні варіанти, де в якості матриці коваріації класу використовується матриця

    Лінійний Розділювальний Аналіз 

де Лінійний Розділювальний Аналіз  — деякий параметр від 0 до 1, а Лінійний Розділювальний Аналіз  — середня матриця коваріації по всіх класах (така як використовується в LDA)

Регуляризований дискримінантний аналіз

Матрицю коваріації в LDA можна замінити на

    Лінійний Розділювальний Аналіз ,

де I — одинична матриця, Лінійний Розділювальний Аналіз  — параметр від 0 до 1, Лінійний Розділювальний Аналіз  — вектор стандартного відхилення кожного параметру всередині класу. Таким чином матриця стає ближчою до діагональної і вплив коваріацій зменшується. У крайньому випадку Лінійний Розділювальний Аналіз  всі змінні вважаються незалежними. Така модель називається наївною гаусівською баєсовою (англ. Gaussian Naive Bayes). Її перевага полягає в значно меншій кількості параметрів моделі.

Література

  • Хасті Т., Тібширані Р., Фрідман Дж. Основы статистического обучения. — 2. — Київ : «Діалектика», 2020. — 768 с. — ISBN 978-617-7812-91-2.
  • Дуда Р.,Харт П. Распознавание образов и анализ сцен. — М. : «Мир», 1976. — 507 с.

Примітки

Tags:

Лінійний Розділювальний Аналіз ІсторіяЛінійний Розділювальний Аналіз АлгоритмЛінійний Розділювальний Аналіз ЛітератураЛінійний Розділювальний Аналіз ПриміткиЛінійний Розділювальний АналізАнглійська мова

🔥 Trending searches on Wiki Українська:

Втрати силових структур внаслідок російського вторгнення в Україну (березень 2023)Генг-бенгКліторЗузана Чапутова10-та окрема гірсько-штурмова бригада (Україна)День жінок-мироносицьJavaScriptМарго РоббіОдесаКлименко Ігор ВолодимировичАгностицизмМатвієнко Ніна МитрофанівнаТюльпанСтус Василь СеменовичРябікін Павло БорисовичТернопільТуреччинаРіч ПосполитаFacebookСписок померлих 2023 рокуЗморшокАлан Тюрінг2С1 «Гвоздика»Організація Об'єднаних НаційКривий РігІнтроверсія — екстраверсія14-та гренадерська дивізія Ваффен-СС «Галичина»Українська ДержаваКанадаНаціональна поліція УкраїниЗбройні сили УкраїниНорвегіяКультура28 квітняМіста України (за населенням)Список слов'янських богівЗеленський Володимир ОлександровичКоновалець Євген МихайловичАндрей (Шептицький)Ракетний удар по житловому будинку в ДніпріАнтитерористична операція на сході УкраїниПилипенко Віктор СергійовичПВК ВагнераНомерні знаки УкраїниІскандер (ОТРК)Механізовані війська УкраїниMcDonald'sШизофреніяБДСМХарківська областьСили територіальної оборони Збройних сил УкраїниХвороба КронаЗоряний пил (фільм)Козак СіромахаКіновсесвіт MarvelГоловна сторінкаУкраїнське козацтвоПівденна КореяКалібр (ракета)SHUMEIКемаль Киличдароглу118-та окрема механізована бригада (Україна)Костенко Ліна Василівна8-й окремий полк спеціального призначення (Україна)Наєв Сергій ІвановичВійськова служба правопорядку УкраїниМукачевоОктавіан АвгустВульваОперативне командування «Північ»Куліш Пантелеймон ОлександровичРадянсько-фінська війна (1939—1940)Деменція95-та окрема десантно-штурмова бригада (Україна)Нахман із БрацлаваМосковське царствоДжо БайденСтупка Богдан Сильвестрович🡆 More