Лінійний Розділювальний Аналіз

З його допомогою будуються лінійні комбінації предикторів, що відділяють області одного класу від іншого. LDA працює для будь-якої кількості класів, на відміну від таких методів як логістична регресія, що в першу чергу використовуються для бінарної класифікації.

Історія

Лінійний дискримінативний аналіз базується на використанні критерія Фішера, який був описаний британським статистиком і біологом Рональдом Фішером у задачі бінарної класифікації, розділення ірисів за розмірами частин квітки.

У 1948 метод був узагальнений індійським математиком Кальямпуді Радхакришною Рао^[en] для довільної кількості класів.

Алгоритм

LDA шукає проєкцію даних у деякий підпростір розмірності $min(K-1,p)$ або менше (де $K$ — кількість класів, $p$ — кількість ознак). Підпростір обирається так, щоб проєкції розподілів, що відносяться до різних класів, були розділені у ньому якомога сильніше. Таким чином класи розділюються за правилом:

Кожному класу ставиться у відповідність деяка функція вигляду $f_{i}(X)=w^{T}X+w_{0}$ . Ці функції називаються дискримінантними функціями. Матриця $w$ є матрицею проєкції, $||w||=1$ .
Кожна точка простору ознак класифікується відповідно до того, яка саме з дискримінантних функцій має найвище значення у ній.

Через те що всі функції є лінійними по Х, границі між областями простору, що відповідають різним класам (decision surface) завжди є гіперплощинами.

У найпростішому випадку двох класів підпростір є одномірним — прямою, і розділення відбувається за правилом :

$Class1:w^{T}x+w_{0}>0$
$Class2:w^{T}x+w_{0}<0$

Геометричний сенс функції $w^{T}x+w_{0}$ в такому випадку — відстань від гіперплощини розділяючої класи до точки даних.

Дискримінантні функції будуються так, щоб зробити розділення класів якомога простішим. Існує кілька алгоритмів, які вирішують цю задачу, найвідомішими є дискримінантний аналіз Фішера і баєсівський класифікатор. У деяких випадках вони дають однакові результати, проте загалом це різні алгоритми.

Дискримінантний аналіз Фішера

Історично першою спробою побудувати лінійну дискримінантну модель була модель запропонована Фішером.

Нехай є два класи. Тоді підпростором найкращого розділення буде такий, що при проєктуванні на нього даних максимальним є відношення відстані між середнім значенням класів і розкидом всередині класу.

Нехай $g_{i}(i=1,2)$ — елементи класу $i$ , а $N_{i}$ — кількість елементів у цьому класі. Тоді середнє значення по класу дорівнює

\mu _{i}={\frac {\sum \limits _{x\in g_{i}}x}{N}}

$\mu$ в цьому записі — p-вимірний вектор

середнє проєкції класу (скаляр)

{\tilde {\mu _{i}}}={\frac {\sum \limits _{x\in g_{i}}w^{T}x}{N}}=w^{T}\mu _{i}

розкид всередині класу

S_{wi}=\sum _{x\in g_{i}}(x-\mu _{i})^{2}=\sum _{x\in g_{i}}(x-\mu _{i})(x-\mu _{i})^{T}

розкид всередині проєкції елементів класу

{\tilde {S}}_{wi}=\sum _{x\in g_{i}}(w^{T}x-{\tilde {\mu _{i}}})^{2}=

$=\sum _{x\in g_{i}}(w^{T}x-w^{T}\mu _{i})(w^{T}x-w^{T}\mu _{i})^{T}=$

$=\sum _{x\in g_{i}}w^{T}(x-\mu _{i})(x-\mu _{i})^{T}w=w^{T}S_{wi}w$

Тоді функція, максимум якої необхідно знайти:

J(w)={\frac {({\tilde {\mu _{1}}}-{\tilde {\mu _{2}}})^{2}}{{\tilde {S}}_{w1}+{\tilde {S}}_{w2}}}={\frac {w^{T}S_{b}w}{w^{T}S_{w}w}}

Величину ${\tilde {S}}_{B}=({\tilde {\mu _{1}}}-{\tilde {\mu _{2}}})^{2}=w^{T}S_{b}w$ називають також міжкласовим розкидом(between-class scatter), тоді як ${\tilde {S_{w}}}={\tilde {S}}_{w1}+{\tilde {S}}_{w2}=w^{T}S_{w}w$ — внутрішньокласовим розкидом (within-class scatter matrix).

Продиференціювавши $J(w)$ по $w$ і прирівнявши результат до нуля отримуємо:

(w^{T}S_{w}w)2S_{b}w-(w^{T}S_{b}w)2S_{w}w=0

ділимо на $2w^{T}S_{w}w$ :

{\frac {w^{T}S_{w}w}{w^{T}S_{w}w}}S_{b}w-{\frac {w^{T}S_{b}w}{w^{T}S_{w}w}}S_{w}w=0

тоді

S_{b}w-J(w)S_{w}w=0

S_{w}^{-1}S_{b}w=J(w)w

оскільки $J(w)$ — скаляр, задача зводиться до пошуку власних векторів. Найкраще розділення буде досягнуто при проєкції на вектор, що відповідає найбільшому власному значенню.

У випадку двох класів також є більш простий спосіб оцінки w: через те що важливий лише напрямок вектору w, його можна визначити виходячи з того, що: $S_{w}^{-1}S_{b}w=S_{w}^{-1}(\mu _{1}-\mu _{2})(\mu _{1}-\mu _{2})^{T}w=S_{w}^{-1}(\mu _{1}-\mu _{2})a$ , де а — скаляр. Таким чином: $w\propto S_{w}^{-1}(\mu _{1}-\mu _{2})$

Модель Фішера працює у дуже широких межах, оскільки має досить мало вимог до розподілу даних, проте вона дає чіткого способу визначити границі класів після проєкції. Найбільш загальний принцип вибору полягає в тому, щоб кількість помилок першого і другого роду при класифікації була однаковою. В найпростішому варіанті гіперплощина розташовується рівно посередині між середніми значеннями класів.

Підхід може бути застосований і до більше ніж двох класів. У такому випадку, матриця проєкції $w$ має розміри $K-1\times p$ , а матриця міжкласового розкиду визначається як

S_{b}=\sum _{j=1}^{K}(\mu _{j}-\mu )(\mu _{j}-\mu )^{T}

,

де μ — загальне середнє по всіх класах.

У цьому випадку, w складається з $K-1$ стовпчиків, що відповідають найбільшим власним векторам матриці $S_{w}^{-1}S_{b}$ .

Головним чином такий алгоритм для великої кількості класів використовується як спосіб зниження розмірності (дані проєціюються на гіперплощину нижчої розмірності проте класифікатор не будується).

Щоб все ж побудувати модель багатокласової класифікації за цим підходом можна створити $(K-1)K/2$ окремих класифікаторів, які будуть попарно порівнювати класи, або ж $K$ класифікаторів, кожен з яких робить класифікацію один-проти-решти. Недоліком цього підходу є те, що при ньому деякі зони можуть мати невизначений клас — або через те що створюються цикли класифікацій (клас 2 більш ймовірний ніж клас 1, клас 3 більш ймовірний ніж клас 2, клас 1 більш ймовірний ніж клас 3), або через те, що жоден з класифікаторів один-проти-всіх не визначає точку як належну до "свого" класу.

Тому для класифікації у викпадку 3 і більше класів зазвичай використовують описаний нижче баєсів класифікатор.

Баєсів класифікатор

Баєсів класифікатор застосовується до більш вузького випадку: якщо в усіх класах точки мають однаковий (багатовимірний нормальний) розподіл, що відрізняється лише середнім, тобто, матриці коваріації точок всередині кожного класу однакові.

Часто коли говорять про лінійний розділювальний аналіз, то мається на увазі саме баєсівський класифікатор.

Згідно з теоремою Баєса, ймовірність того, що деяке спостереження $x$ належить до класу K, можна оцінити, знаючи розподіл значень всередині класів і ймовірності самих класів $\pi _{k}$ :

Pr(G=k|X=x)={\frac {f_{k}(x)\pi _{k}}{\sum \limits _{l=1}^{K}f_{l}(x)\pi _{l}}}

Багатовимірний нормальний розподіл точок що відносяться до класу $k$ задається як:

f_{K}(x)={\frac {1}{(2\pi )^{p/2}\left|\Sigma _{k}\right|^{1/2}}}e^{-{\frac {1}{2}}(x-\mu _{k})^{T}\Sigma _{k}^{-1}(x-\mu _{k})}

де $\mathbf {x} \in \mathbb {R} ^{p}$ , а $\Sigma _{K}$ — матриця коваріації.

Виразимо тоді логарифм співвідношення ймовірностей того, що спостереження x відноситься до класу $k$ і $l$ , припускаючи що матриці коваріації $\Sigma$ однакові для всіх класів (через що члени з $x^{2}$ скорочуються:

log{\frac {Pr(G=k|X=x)}{Pr(G=l|X=x)}}=\log {\frac {f_{k}(x)}{f_{l}(x)}}+\log {\frac {\pi _{k}}{pi_{l}}}=\log {\frac {\pi _{k}}{pi_{l}}}-{\frac {1}{2}}(\mu _{k}+\mu _{l})^{T}\Sigma ^{-1}(\mu _{k}-\mu _{l})+x^{T}\Sigma ^{-1}(\mu _{k}-\mu _{l})

Тоді функції

\delta _{k}=\log \pi _{k}+x^{T}\Sigma ^{-1}\mu _{k}-{\frac {1}{2}}\mu _{k}^{T}\Sigma ^{-1}\mu _{k}

і будуть питомими дискримінантними функціями. Спостереження належить до того класу, який має максимальну дискримінантну функцію у відповідній точці.

Параметри функції визначаються з вибіркових даних:

{\hat {\pi }}_{k}=N_{k}/N

{\hat {\mu }}_{k}=\sum _{x\in g_{k}}x/N_{k}

{\hat {\Sigma }}=\sum _{k=1}^{K}\sum _{x\in g_{k}}(x-{\hat {\mu }}_{k})(x-{\hat {\mu }}_{k})^{T}/(N-K)

Вимоги до даних

Для всіх варіантів LDA дані очікуються нормалізовані, з варіацією всіх ознак рівною одиниці. Для баєсівського класифікатора також важливо щоб усі класи мали багатовимірний гаусів розподіл а матриця коваріації була однаковою в усіх класах.

Аналіз чутливий до викидів тому бажано перевірити дані і видалити їх до початку роботи.

Варіації алгоритму

Квадратичний дискримінантний аналіз

Якщо матриці коваріації не рівні, то скорочення квадратичних членів не відбувається. Відповідно, границі між класами будуть описуватися кривими другого порядку а не гіперплощинами, а кількість параметрів можелі сильно зросте. Така модель називається квадратичним дискримінантним аналізом (QDA).

Схожі результати можна отримати, додаючи в модель складні предиктори, наприклад, якщо до моделі з двома предикторами $x_{1}$ і $x_{2}$ додати ще три, які дорівнюють $x_{1}^{2},x_{1}x_{2},x_{2}^{2}$ , отримане лінійне рівняння відносно п'яти параметрів буде квадратичним відносно $x_{1}$ і $x_{2}$ . Проте, ці два підходи не є ідентичними, і отримані поверхні розділення класів різні, хоча часто різниця є невеликою.

Можливі проміжні варіанти, де в якості матриці коваріації класу використовується матриця

\Sigma (a)_{k}=(1-a)\Sigma _{k}+a\Sigma ^{*}

де $a$ — деякий параметр від 0 до 1, а $\Sigma ^{*}$ — середня матриця коваріації по всіх класах (така як використовується в LDA)

Регуляризований дискримінантний аналіз

Матрицю коваріації в LDA можна замінити на

\Sigma (\gamma )=(1-\gamma )\Sigma +\gamma I\sigma ^{2}

,

де I — одинична матриця, $\gamma$ — параметр від 0 до 1, $\sigma$ — вектор стандартного відхилення кожного параметру всередині класу. Таким чином матриця стає ближчою до діагональної і вплив коваріацій зменшується. У крайньому випадку $\gamma =1$ всі змінні вважаються незалежними. Така модель називається наївною гаусівською баєсовою (англ. Gaussian Naive Bayes). Її перевага полягає в значно меншій кількості параметрів моделі.

Література

Хасті Т., Тібширані Р., Фрідман Дж. Основы статистического обучения. — 2. — Київ : «Діалектика», 2020. — 768 с. — ISBN 978-617-7812-91-2.
Дуда Р.,Харт П. Распознавание образов и анализ сцен. — М. : «Мир», 1976. — 507 с.

Примітки

This article uses material from the Wikipedia Українська article Лінійний розділювальний аналіз, which is released under the Creative Commons Attribution-ShareAlike 3.0 license ("CC BY-SA 3.0"); additional terms may apply (view authors). Вміст доступний на умовах CC BY-SA 4.0, якщо не вказано інше. Images, videos and audio are available under their respective licenses.
®Wikipedia is a registered trademark of the Wiki Foundation, Inc. Wiki Українська (DUHOCTRUNGQUOC.VN) is an independent company and has no affiliation with Wiki Foundation.