標準差為什麼要這樣定義

標準差為什麼要這樣定義

標準差為什麼要這樣定義?

我們學的標準差定義為\(\sqrt{\frac{\sum_{i=1}^{n}(x_i-\mu)^2}{n}}\),書上說這個數值刻劃了資料的離散程度,但既然要刻劃數值的離散程度,\(\frac{\sum_{i=1}^{n}|x_i-\mu|}{n}\)不是更直觀嗎?這個問題我也想了很久,目前比較可以接受的答案如下。

其實兩個公式各有各自的名稱。

Standard Deviation\(\sqrt{\frac{\sum_{i=1}^{n}(x_i-\mu)^2}{n}}\)
Mean Absolute Deviation\(\frac{\sum_{i=1}^{n}|x_i-\mu|}{n}\)

定義前者為"標準"差的理由是,在常用的幾個distribution之下,Standard Deviation的公式比較漂亮,Mean Absolute Deviation的公式比較複雜。我把它們列成表格比較。

Discrete P.M.F. Explanation Standard Deviation Mean Absolute Deviation
Uniform \(f(x)=\frac{1}{m}\),
\(x=1, 2, ..., m\)
\(m\) 顆球中取到 \(x\) 號的機率 \(\sqrt{\frac{m^2-1}{12}}\) \(\left\{\begin{array}{ll}\frac{m}{4}&\text{for }m\text{ even}\\\frac{(m-1)(m+1)}{4m}&\text{for }m\text{ odd}\\\end{array}\right.\)
Bernoulli \(f(x)=p^x(1-p)^{1-x}\),
\(x=0, 1\)
投 \(1\) 次硬幣,出現 \(x\) 次正面的機率 \(\sqrt{p(1-p)}\) \(2p(1-p)\)
Binomial \(f(x)={n\choose x}p^x(1-p)^{n-x}\),
\(x=0, 1, 2, ..., n\)
投 \(n\) 次硬幣,出現 \(x\) 次正面的機率 \(\sqrt{np(1-p)}\) \(2(1-p)^{n-\lfloor np\rfloor}p^{\lfloor np\rfloor+1}(\lfloor np\rfloor+1){n\choose \lfloor np\rfloor+1}\)
Geometric \(f(x)=(1-p)^{x-1}p\),
\(x=1, 2, 3, ...\)
經歷 \(x-1\) 次失敗,在第 \(x\) 次成功的機率 \(\sqrt{\frac{1-p}{p^2}}\) \(2(1-p)^{\lfloor 1/p \rfloor}\lfloor \frac{1}{p} \rfloor\)
Poisson \(f(x)=\frac{\lambda^x e^{-\lambda}}{x!}\),
\(x=0, 1, 2, ...\)
在某段長度為 \(L\) 的時間內,有 \(x\) 次電話來電的機率,\(\lambda\) 為在時間 \(L\) 中,平均來電的次數,\(\lambda>0\) \(\sqrt{\lambda}\) \(\frac{2e^{-\lambda}\lambda^{\lfloor \lambda \rfloor +1}}{\lfloor \lambda \rfloor!}\)

Continuous P.D.F. Explanation Standard Deviation Mean Absolute Deviation
Uniform \(f(x)=\frac{1}{b-a}\),
\(a\leq x\leq b\)
在 \([a, b]\) 區間選一點的機率,直覺上選一點的機率應該是 \(0\),但其實是由C.D.F. 微分推過來的。 \(\frac{b-a}{\sqrt{12}}\) \(\frac{1}{4}(b-a)\)
Exponential \(f(x)=\frac{1}{\theta}e^{-x/\theta}\),
\(0\leq x<\infty\)
第 \(1\) 次來電的等待時間為 \(x\) 的機率。\(\lambda\) 為單位時間中,平均來電的次數。注意與Poisson中 \(\lambda\) 的意義不同。
\(\theta=\frac{1}{\lambda}\)
\(\theta\) \(\frac{2\theta}{e}\)
Gamma \(f(x)=\frac{1}{\Gamma(\alpha)\theta^{\alpha}}x^{\alpha-1}e^{-x/\theta}\),
\(0<x<\infty\)
第 \(\alpha\) 次來電的等待時間為 \(x\) 的機率。\(\lambda\) 為單位時間中,平均來電的次數。
\(\theta=\frac{1}{\lambda}\)
\(\sqrt{\alpha}\theta\) ???
Chi-Square \(f(x)=\frac{1}{\Gamma(r/2)2^{r/2}}x^{r/2-1}e^{-x/2}\),
\(0<x<\infty\)
Gamma分配中,\(\theta=2, \alpha=\frac{r}{2}\)
\(r=1, 2, ...\)
\(\sqrt{2r}\) ???
Normal \(f(x)=\frac{1}{\sigma \sqrt{2\pi}}e^{-(x-\mu)^2/(2\sigma^2)}\),
\(-\infty<x<\infty\)
  \(\sigma\) \(\sqrt{\frac{2}{\pi}}\sigma\)
Beta \(f(x)=\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}x^{\alpha-1}(1-x)^{\beta-1}\),
\(0<x<1\)
  \(\sqrt{\frac{\alpha\beta}{(\alpha+\beta+1)(\alpha+\beta)^2}}\) ???

Mean Absolute Deviation的公式是從這裡Wolfram Math World看來的。其他公式主要是參考Hogg跟Tanis的Probability and Statistical Inference。

更多理由

No comments:

Post a Comment