因素分析(粵拼:jan1 sou3 fan1 sik1;英文:Factor analysis)係一類嘅統計方法,用嚟將大量嘅變數轉化做少量因素,當中「因素」通常係一啲數值冇得直接量度嘅嘢,所以就要由量度得到嗰啲變數嚟「反映」佢。例如智商測驗就係因素分析嘅出名應用例子:智商測驗旨在量度智能,但係智能(因素)呢家嘢冇得直接量度,佢嘅數值只可以靠住由測驗題目攞到嘅分數(量度得到嘅變數)嚟反映。
以下嘅內容如果有基本概念唔明,可以去參考吓迴歸分析。
用一句句子嚟講嘅話,因素分析嘅重點目標係要:p 1
將數量龐大嘅變數,轉化做數量比較少嘅因素。
做科研嗰陣,研究者往往要面對好多變數,不過好多時一大拃變數查實都係反映緊某啲「潛在因素」(潛在變數),而因素分析就係想用一連串嘅演算法,搵出呢啲「潛在因素」。舉個具體例子說明,想像研究者畀受試者做咗個 IQ 測試,
要圖像化嘅話,啲人通常會將因素分析畫做好似文頭嗰幅圖噉嘅模型。搵到啲參數嘅數值之後,研究者仲可以做好多唔同嘅分析,包括「啲變數係咪真係反映緊同一個潛在因素」或者係「個潛在因素嘅結構係點,會唔會有得再細分做兩個子因素」... 等等。事實上呢種噉嘅分析,係 IQ 呢個概念嘅數學基礎。
因素分析可以分兩大類型:探索型(EFA)同確定型(CFA)。如果一位研究者行嘅係 EFA,即係話佢冇事先指定要有幾多個因素,佢會叫部電腦按照某啲條件「睇吓呢啲數據望落似係分到做幾多個因素」,目標係要由數據嗰度產生理論模型;而如果一位研究者行嘅係 CFA,即係話佢會事先指定有幾多個因素,以及係每個因素包括邊啲可觀察變數,然後佢就會叫部電腦計吓,佢心目中嗰個模型同數據所顯示嘅「有幾吻合」—用統計學行話講,意思係話 CFA 會包含測試手上嘅假說。
以下係做 EFA 嘅步驟。
喺數據科學上,探索性質嘅因素分析可以好有用:p 2:呢種分析能夠減少要考慮嘅變數嘅數量—用 嘅 1 個數值總結晒嗰一大拃分數,達致用數量更少嘅概念解釋現象;探索型嘅因素分析又可以用嚟探討變數之間有咩關係,以及係好似 IQ 噉嘅理論概念嘅「內部結構」(例如會唔會某啲變數零舍反映得到 IQ 呢?)。除此之外,呢種分析仲可以用嚟處理做統計分析不時會遇到嘅多重共線性問題。
郁手行因素分析之前,分析者要睇睇以下呢啲嘢先:
等等。
如果係做 EFA,部電腦就要自行決定「個模型要有幾多個因素」。呢個決定一啲都唔容易做。
想像而家部電腦計咗幾個因素模型出嚟,根據模型 A,嗰拃變數背後有三個潛在變數,模型 B 就話嗰拃變數背後得兩個潛在變數,而模型 C 就話嗰拃變數背後有四個潛在變數。噉亦即係話,分析者要搵某啲條件,作出「手上搵到嘅因素模型當中,邊一個係最可以接受,或者最似係真確嘅」噉嘅決定。而且決定因素數量本質上就係兩難:根據科學上嘅奧坎剃刀原則,科學追求嘅係用最少嘅概念解釋最多嘅現象,所以因素應該係愈少就愈理想;但係另一方面事實又表明,因素數量上升,個模型「解釋到嘅變數變異」實會跟住升—縱使個升幅可能好微細,例如加多一個因素,解釋咗嘅變異淨係升嗰 1% 咁多。
特徵值(以符號 代表)係統計學成日提到嘅一個概念。簡化噉講,特徵值係反映緊添加一個因素能夠令「解釋到嘅變數變異」升幾多。而要選擇因素嘅數量,一個簡單嘅方法就係一邊加新嘅因素落去個模型度,一邊睇住特徵值點樣變化—噉一旦「加咗第 個因素,解釋到嘅變異嘅升幅」數值(由特徵值反映)跌到低過預先設好嘅門檻(例如特徵值跌到細過 1),部電腦就會停手唔再加新嘅因素,最後得出一個 咁多個因素嘅模型。根據慣常用嘅標準,自然科學嘅因素模型要解釋最少 95% 嘅變異,而社會科學嘅因素模型就要解釋最少 50 到 60% 嘅變異。
好似係以下呢個例子噉:p 7(已解變異係指解釋到幾多變異,以 % 嚟計):
特徵值 | 添加因素已解變異會升... | 累計已解變異總共幾多? | |
---|---|---|---|
因素 1 | 19.095 | 40.627 | 40.627 |
因素 2 | 2.644 | 5.625 | 46.252 |
因素 3 | 1.733 | 3.688 | 49.940 |
因素 4 | 1.354 | 2.882 | 52.822 |
因素 5 | 1.156 | 2.459 | 55.281 |
因素 6 | 1.144 | 2.433 | 57.714 |
因素 7 | 1.014 | 2.158 | 59.873 |
—去到添加第 8 個因素嗰陣,特徵值跌到細過 1,就形成一個 7 個因素嘅模型,解釋得到約莫 60% 嘅變異。
「一邊添加新因素,一邊睇住特徵值點變」噉嘅思考方法,可以用岩屑堆圖嘅方式圖像化。一幅岩屑堆圖有打橫打戙兩條軸,打橫嗰條表示因素嘅數量,而打戙嗰條表示特徵值。事實表明,隨住因素數量上升,特徵值會變到愈嚟愈細,即係話岩屑堆圖出嗰條線會偏向下跌,跌嘅速度就愈嚟愈慢,形狀望落似岩屑堆,好似下圖:
而條虛線就表示特徵值係 1 嗰個位—特徵值一跌到落 1 以下,部電腦就停手唔再加新嘅因素。上述呢幅圖噉嘅情況,部電腦最後會出嗰個模型將會有 3 個因素。
淨係出咗個模型係唔夠嘅。事實表明,因素分析出嘅模型好多時都「唔夠靚」:出咗個模型之後,是但攞一個變數嚟睇,個變數都會有條式
當中
用矩陣式嘅寫法,就可以寫做望落簡潔啲嘅
—是但攞一對「變數-因素」組合,佢哋之間嘅因素負荷量都可以唔同,例如如果佢哋之間個 近乎等如 0,就表示兩者之間咩關係都冇,而如果佢哋之間個 數值好大,就表示兩者之間有好強嘅關係。因素旋轉做嘅嘢,就係想令到個模型入便多啲數值高嘅負荷量,同時少啲數值低嘅負荷量:p 9,用日常用語講可以大致想像成「執吓啲 佢,等個模型睇落靚啲」。
因素分析上用嘅旋轉方法,可以有好多種:
喺廿一世紀初嘅統計學界,因素旋轉呢樣嘢受到一定嘅批評:事實表明,數據入便嘅細微變動,可以令到因素旋轉出嘅結果出現大變;例如而家手上有 300 個個體,用呢 300 個個體做 EFA 用 varimax 旋轉,然後再由 300 個個體入便是但剷走 10 個個體嘅數據,重做用 varimax 旋轉嘅 EFA,出嘅因素模型可以唔同晒(因素嘅數量唔同,而且「邊個變數負荷落去邊個因素」又唔同咗);噉嘅問題亦表示,因素旋轉令到研究者難以比較唔同研究出嘅結果。事實係有社科研究曾經試過發生噉嘅事—班研究者喺度研究文化,個個都有用因素分析,用嘅旋轉方法唔同,打後嘅研究者發現,呢幾份研究冇旋轉得出嘅因素模型好相似,但係做咗旋轉之後嘅因素模型唔同晒,唔同研究者手上都有個唔同嘅因素模型,個個諗住自己發現咗新嘢,仲創造新概念嚟解釋呢啲「新發現」。
搞掂晒呢啲步驟,分析者就要詮釋個結果:就算做完旋轉,個模型都只係一大拃數值,分析者要對呢拃數值賦予意義;舉個簡化例子,想像而家研究智商,研究者手上個智商測試有 30 條問題;佢行 EFA 搵到一個因素模型,個模型得一個因素,當中頭嗰 10 條問題嘅因素負荷量(標準化咗)做晒旋轉都仲係好低(連 0.4 都唔夠),同時尾嗰 20 條問題就條條都因素負荷量都超過 0.7(標準化咗);噉佢就有理由相信
有研究者指出,因素分析得出嘅因素幾有意義,講到埋尾都係由研究者定義嘅—有關要點樣同啲因素命名,廿一世紀初嘅學界並冇乜嘢精確嘅基準,好多時都係研究者睇吓喺呢個因素上負荷量高嘅變數,再認為佢哋「似係大致反映緊 XXX 呢個理論概念」,就當咗佢哋係反映緊呢個概念。
啲人做完 EFA,成日都會走去做 CFA:想像而家一班研究者搵咗拃數據返嚟,用 EFA 建立咗個因素模型;佢哋好多時都會想搵第個樣本,用新樣本嘅數據嚟行 CFA,檢驗吓由第一個樣本度搵到嘅因素模型「有幾用得到落去個新樣本度」— CFA 做嘅正正就係攞住
然後出一拃數值,講吓呢個模型有幾符合手上嗰拃數據。
有關 CFA 嗰啲數學細節,可以睇睇結構方程模型。
做 CFA 嘅第一步就係要界定個模型。一般來講,研究者會做 CFA 可能係因為佢睇過前人做嘅研究,知道手上嗰拃變數應該係成點嘅因素結構嘅,亦有可能係佢做完 EFA 搵到一個因素模型。無論係點,佢跟住都同部電腦講,佢心目中個模型係點嘅,即係想像
噉嘅因素模型,研究者要指定有幾多個因素( 嘅數值),有幾多個變數( 嘅數值),佢亦要指定每個變數係反映緊邊個因素(可以想像成係指定邊個 係 0 邊個係非 0)—研究者要指定佢心目中個理論模型,再做分析睇吓能唔能夠確定佢個諗法係啱嘅。不過研究者唔使乜嘢都指定晒,喺多數情況下研究者都冇需要指定啲 嘅具體數值—啲 嘅具體數值會由做 CFA 嘅演算法負責估計。
淨係搵到一個模型係唔夠嘅:搵到個模型啲參數(拃 )數值之後,分析者仲要檢驗個模型嘅適合度夠唔夠高:適合度泛指一個統計模型(例如係一個 CFA 模型)有幾切合得到手上嘅數據;例如
等等。如果啲適合度指標反映手上嗰個模型「可以接受」,研究者就可以去下一步詮釋呢個模型。
CFA 被指係最啱用嚟檢驗一個理論模型嘅聚合效度同分歧效度:p 4,仲可以用嚟檢驗一個因素結構係咪有量度不變特性:22.2。
用咗嘅重要概念或者專有名詞嘅外語(主要係英文)名:
This article uses material from the Wikipedia 粵語 article 因素分析, which is released under the Creative Commons Attribution-ShareAlike 3.0 license ("CC BY-SA 3.0"); additional terms may apply (view authors). 呢度嘅所有文字係根據 CC BY-SA 4.0 牌照嘅條款發佈;可能會有附加嘅條款。 Images, videos and audio are available under their respective licenses.
®Wikipedia is a registered trademark of the Wiki Foundation, Inc. Wiki 粵語 (DUHOCTRUNGQUOC.VN) is an independent company and has no affiliation with Wiki Foundation.