為非負數值(因為平方後再做平方根); 與測量資料具有相同單位(這樣才能比對)。 图中红蓝两组数据平均值相同,但标准差不同。红色数据的标准差较蓝色数据的标准差要小。 一個總量的標準差或一個隨機變數 的標準差,及一個子集合 樣品數的標準差之間,有所差別。其公式如下所列。
標準差的概念由卡爾·皮爾森 引入到統計中。
闡述及應用
簡單來說,標準差是一組數值自平均值 分散開來的程度的一種測量觀念。一個較大的標準差,代表大部分的數值和其平均值之間差異較大;一個較小的標準差,代表這些數值較接近平均值。
例如,兩組數的集合 {0, 5, 9, 14}和{5, 6, 8, 9}其平均值都是7,但第二個集合具有較小的標準差。
表述“相差 k {\displaystyle k} 个标准差”,即在 X ¯ ± k S {\displaystyle {\overline {X}}\pm kS} 的样本 (sample)范围内考量。
標準差可以當作不確定性的一種測量。例如在物理 科學 中,做重複性測量時,測量數值集合的標準差代表這些測量的精確度 。當要決定測量值是否符合預測值,測量值的標準差佔有決定性重要角色:如果測量平均值與預測值相差太遠(同時與標準差數值做比較),則認為測量值與預測值互相矛盾。這很容易理解,因為如果測量值都落在一定數值範圍之外,可以合理推論預測值是否正確。
標準差應用於投資 上,可作為量度回報穩定性的指標。標準差數值越大,代表回報遠離過去平均數值,回報較不穩定故風險越高。相反,標準差數值越小,代表回報較為穩定,風險亦較小。
母體的標準差
基本定義 σ = 1 N ∑ i = 1 N ( x i − x ¯ ) 2 {\displaystyle \sigma ={\sqrt {{\frac {1}{N}}\sum _{i=1}^{N}(x_{i}-{\overline {x}})^{2}}}} x ¯ {\displaystyle {\overline {x}}} 为平均值。
简化计算公式 上述公式可以如下代換而簡化:
∑ i = 1 N ( X i − μ ) 2 = ∑ i = 1 N ( X i 2 − 2 X i μ + μ 2 ) = ( ∑ i = 1 N X i 2 ) − ( 2 μ ∑ i = 1 N X i ) + N μ 2 = ( ∑ i = 1 N X i 2 ) − 2 μ ( N μ ) + N μ 2 = ( ∑ i = 1 N X i 2 ) − 2 N μ 2 + N μ 2 = ( ∑ i = 1 N X i 2 ) − N μ 2 {\displaystyle {\begin{aligned}\sum _{i=1}^{N}(X_{i}-\mu )^{2}&={}\sum _{i=1}^{N}(X_{i}^{2}-2X_{i}\mu +\mu ^{2})\\&{}=\left(\sum _{i=1}^{N}X_{i}^{2}\right)-\left(2\mu \sum _{i=1}^{N}X_{i}\right)+N\mu ^{2}\\&{}=\left(\sum _{i=1}^{N}X_{i}^{2}\right)-2\mu (N\mu )+N\mu ^{2}\\&{}=\left(\sum _{i=1}^{N}X_{i}^{2}\right)-2N\mu ^{2}+N\mu ^{2}\\&{}=\left(\sum _{i=1}^{N}X_{i}^{2}\right)-N\mu ^{2}\end{aligned}}} 所以:
σ = 1 N ∑ i = 1 N ( X i − μ ) 2 = 1 N ( ∑ i = 1 N X i 2 ) − 1 N N μ 2 = ∑ i = 1 N X i 2 N − μ 2 {\displaystyle {\begin{aligned}\sigma &={\sqrt {{\frac {1}{N}}\sum _{i=1}^{N}(X_{i}-\mu )^{2}}}\\&={\sqrt {{\frac {1}{N}}\left(\sum _{i=1}^{N}X_{i}^{2}\right)-{\frac {1}{N}}N\mu ^{2}}}\\&={\sqrt {{\frac {\sum _{i=1}^{N}X_{i}^{2}}{N}}-\mu ^{2}}}\end{aligned}}} 根號裡面,亦即變異數 ( σ 2 {\displaystyle \sigma ^{2}} )的簡易口訣為:「平方和的平均」減去「平均的平方」。
母體為随机变量 一隨機變量 X {\displaystyle X} 的標準差定義為:
σ = E ( ( X − E ( X ) ) 2 ) = E ( X 2 ) − ( E ( X ) ) 2 {\displaystyle \sigma ={\sqrt {\operatorname {E} ((X-\operatorname {E} (X))^{2})}}={\sqrt {\operatorname {E} (X^{2})-(\operatorname {E} (X))^{2}}}} 須注意並非所有隨機變量都具有標準差,因為有些隨機變量不存在期望值 。 如果隨機變量 X {\displaystyle X} 為 x 1 , ⋯ , x n {\displaystyle x_{1},\cdots ,x_{n}} 具有相同機率,則可用上述公式計算標準差。
離散随机变量的标准差 若 X {\displaystyle X} 是由實數 x 1 , x 2 , . . . , x n {\displaystyle x_{1},x_{2},...,x_{n}} 構成的離散隨機變數 (英語:discrete random variable ),且每個值的機率相等 ,則 X {\displaystyle X} 的標準差定義為:
σ = 1 N [ ( x 1 − μ ) 2 + ( x 2 − μ ) 2 + ⋯ + ( x N − μ ) 2 ] {\displaystyle \sigma ={\sqrt {{\frac {1}{N}}\left[(x_{1}-\mu )^{2}+(x_{2}-\mu )^{2}+\cdots +(x_{N}-\mu )^{2}\right]}}} ,其中 μ = 1 N ( x 1 + ⋯ + x N ) {\displaystyle \mu ={\frac {1}{N}}(x_{1}+\cdots +x_{N})} 換成用 ∑ {\displaystyle \sum } 來寫,就成為:
σ = 1 N ∑ i = 1 N ( x i − μ ) 2 {\displaystyle \sigma ={\sqrt {{\frac {1}{N}}\sum _{i=1}^{N}(x_{i}-\mu )^{2}}}} ,其中 μ = 1 N ( x 1 + ⋯ + x N ) {\displaystyle \mu ={\frac {1}{N}}(x_{1}+\cdots +x_{N})} 目前為止,與母體標準差的基本公式一致。
然而若每個 x i {\displaystyle x_{i}} 可以有不同機率 p i {\displaystyle p_{i}} ,則 X {\displaystyle X} 的标准差定義為:
σ = ∑ i = 1 N p i ( x i − μ ) 2 {\displaystyle \sigma ={\sqrt {\sum _{i=1}^{N}p_{i}(x_{i}-\mu )^{2}}}} ,其中 μ = ∑ i = 1 N p i x i . {\displaystyle \mu =\sum _{i=1}^{N}p_{i}x_{i}.} 这里, μ {\displaystyle \mu } 为 X {\displaystyle X} 的数学期望。
连续随机变量的标准差 若 X {\displaystyle X} 為概率密度 p ( X ) {\displaystyle p(X)} 的连续随机变量 (英語:continuous random variable ),則 X {\displaystyle X} 的标准差定義為:
σ = ∫ ( x − μ ) 2 f ( x ) d x {\displaystyle \sigma ={\sqrt {\int (x-\mu )^{2}\,f(x)\,dx}}} 其中 μ {\displaystyle \mu } 为 X {\displaystyle X} 的数学期望:
μ = ∫ x f ( x ) d x {\displaystyle \mu =\int x\,f(x)\,dx} 标准差的特殊性质 对于常数 c {\displaystyle c} 和随机变量 X {\displaystyle X} 和 Y {\displaystyle Y} :
σ ( X + c ) = σ ( X ) {\displaystyle \sigma (X+c)=\sigma (X)} σ ( c X ) = c ⋅ σ ( X ) {\displaystyle \sigma (cX)=c\cdot \sigma (X)} σ ( X + Y ) = σ 2 ( X ) + σ 2 ( Y ) + 2 ⋅ cov ( X , Y ) {\displaystyle \sigma (X+Y)={\sqrt {\sigma ^{2}(X)+\sigma ^{2}(Y)+2\cdot {\mbox{cov}}(X,Y)}}} 其中: cov ( X , Y ) {\displaystyle {\mbox{cov}}(X,Y)} 表示随机变量 X {\displaystyle X} 和 Y {\displaystyle Y} 的协方差 。 σ 2 ( X ) {\displaystyle \sigma ^{2}(X)} 表示 [ σ ( X ) ] 2 {\displaystyle [\sigma (X)]^{2}} ,即 V a r ( X ) {\displaystyle Var(X)} ( X {\displaystyle X} 的變異數),對 Y {\displaystyle Y} 亦同。 样本的标准差
範例
這裡示範如何計算一組數的標準差。例如一群孩童年齡的數值為{ 5, 6, 8, 9 }:
第一步,計算平均值 x ¯ {\displaystyle {\overline {x}}} ︰ x ¯ = 1 N ∑ i = 1 N x i {\displaystyle {\overline {x}}={\frac {1}{N}}\sum _{i=1}^{N}x_{i}} 當 N = 4 {\displaystyle {\begin{smallmatrix}N=4\end{smallmatrix}}} (因為集合裏有4個數),分別設為: x 1 = 5 , x 2 = 6 , x 3 = 8 , x 4 = 9 , {\displaystyle {\begin{aligned}x_{1}&=5,\\x_{2}&=6,\\x_{3}&=8,\\x_{4}&=9,\end{aligned}}} 則平均值為
x ¯ = 1 4 ∑ i = 1 4 x i ( N = 4 ) = 1 4 ( x 1 + x 2 + x 3 + x 4 ) = 1 4 ( 5 + 6 + 8 + 9 ) = 7. {\displaystyle {\begin{aligned}{\overline {x}}&={\frac {1}{4}}\sum _{i=1}^{4}x_{i}&(N=4)\\&={\frac {1}{4}}\left(x_{1}+x_{2}+x_{3}+x_{4}\right)\\&={\frac {1}{4}}\left(5+6+8+9\right)\\&=7.\end{aligned}}} 第二步,計算標準差 σ {\displaystyle \sigma \,} ︰ σ = 1 N ∑ i = 1 N ( x i − x ¯ ) 2 = 1 4 ∑ i = 1 4 ( x i − x ¯ ) 2 ( N = 4 ) = 1 4 ∑ i = 1 4 ( x i − 7 ) 2 ( x ¯ = 7 ) = 1 4 [ ( x 1 − 7 ) 2 + ( x 2 − 7 ) 2 + ( x 3 − 7 ) 2 + ( x 4 − 7 ) 2 ] = 1 4 [ ( 5 − 7 ) 2 + ( 6 − 7 ) 2 + ( 8 − 7 ) 2 + ( 9 − 7 ) 2 ] = 1 4 ( ( − 2 ) 2 + ( − 1 ) 2 + 1 2 + 2 2 ) = 1 4 ( 4 + 1 + 1 + 4 ) = 10 4 ≈ 1.58114 . {\displaystyle {\begin{aligned}\sigma &={\sqrt {{\frac {1}{N}}\sum _{i=1}^{N}(x_{i}-{\overline {x}})^{2}}}\\&={\sqrt {{\frac {1}{4}}\sum _{i=1}^{4}(x_{i}-{\overline {x}})^{2}}}&(N=4)\\&={\sqrt {{\frac {1}{4}}\sum _{i=1}^{4}(x_{i}-7)^{2}}}&({\overline {x}}=7)\\&={\sqrt {{\frac {1}{4}}\left[(x_{1}-7)^{2}+(x_{2}-7)^{2}+(x_{3}-7)^{2}+(x_{4}-7)^{2}\right]}}\\&={\sqrt {{\frac {1}{4}}\left[(5-7)^{2}+(6-7)^{2}+(8-7)^{2}+(9-7)^{2}\right]}}\\&={\sqrt {{\frac {1}{4}}\left((-2)^{2}+(-1)^{2}+1^{2}+2^{2}\right)}}\\&={\sqrt {{\frac {1}{4}}\left(4+1+1+4\right)}}\\&={\sqrt {\frac {10}{4}}}\\&\approx 1.58114\,.\end{aligned}}} 常態分佈的規則
標準差與平均值之間的關係
几何学解释 从几何学 的角度出发,标准差可以理解为一个从 n {\displaystyle n} 维空间的一个点到一条直线的距离的函数。举一个简单的例子,一组数据中有3个值, X 1 , X 2 , X 3 {\displaystyle X_{1},X_{2},X_{3}} 。它们可以在3维空间中确定一个点 P = ( X 1 , X 2 , X 3 ) {\displaystyle P=(X_{1},X_{2},X_{3})} 。想像一条通过原点的直线 L = ( r , r , r ) : r ∈ R {\displaystyle L={(r,r,r):r\in \mathbb {R} }} 。如果这组数据中的3个值都相等,则点 P {\displaystyle P} 就是直线 L {\displaystyle L} 上的一个点, P {\displaystyle P} 到 L {\displaystyle L} 的距离为0,所以标准差也为0。若这3个值不都相等,过点 P {\displaystyle P} 作垂线 P R {\displaystyle PR} 垂直于 L {\displaystyle L} , P R {\displaystyle PR} 交 L {\displaystyle L} 于点 R {\displaystyle R} ,则 R {\displaystyle R} 的坐标为这3个值的平均数:
R = ( x ¯ , x ¯ , x ¯ ) {\displaystyle R=({\overline {x}},{\overline {x}},{\overline {x}})} 运用一些代数知识,不难发现点 P {\displaystyle P} 与点 R {\displaystyle R} 之间的距离(也就是点 P {\displaystyle P} 到直线 L {\displaystyle L} 的距离)是 σ 3 {\displaystyle \sigma {\sqrt {3}}} 。在 n {\displaystyle n} 维空间中,这个规律同样适用,把 3 {\displaystyle 3} 换成 n {\displaystyle n} 就可以了。
参考文献 外部链接
This article uses material from the Wikipedia 中文 article 標準差 , which is released under the Creative Commons Attribution-ShareAlike 3.0 license ("CC BY-SA 3.0") ; additional terms may apply (view authors ). 除非另有声明,本网站内容采用CC BY-SA 4.0 授权。 Images, videos and audio are available under their respective licenses. ®Wikipedia is a registered trademark of the Wiki Foundation, Inc. Wiki 中文 (DUHOCTRUNGQUOC.VN) is an independent company and has no affiliation with Wiki Foundation.