跳转至

统计学基础

概率、频率与小概率事件

  • 随机事件:随机现象某个可能的观察结果称为一个随机事件
  • 频率:观察到的随机事件某个结局的出现频次/比例,可以被直接观察到

  • 概率:概率刻画随机事件发生的可能性,其取值介于0到1之间。不能被直接观察到,但是可以通过频率估计,实验次数越多,估计越准确

正态分布

正态分布(Normal Distribution),又称高斯分布,是一种在统计学中最常见的概率分布。它描述了一种对称的、钟形的分布模式,常用于描述自然现象中的连续变量。

其概率密度函数定义如下

\[ f(x) = \frac{1}{\sqrt{2\pi \sigma^2}} e^{-\frac{(x - \mu)^2}{2\sigma^2}} \]
  • $ \mu $:均值,表示分布的中心位置。

  • $ \sigma $:标准差,表示数据的离散程度。

  • $ \sigma^2 $:方差,表示数据的波动范围。

正态分布的特征指标:

(1) 均值(Mean, \(\mu\)) 均值是数据分布的中心点。正态分布的均值决定了分布的位置 $$ \mu = \frac{1}{n} \sum_{i=1}^{n} x_i $$

(2) 方差(Variance, \(\sigma^2\))方差表示数据与均值的偏离程度,是衡量数据离散程度的指标。 $$ \sigma^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \mu)^2 $$

(3) 标准差(Standard Deviation, \(\sigma\))) 标准差是方差的平方根 $$ \sigma = \sqrt{\sigma^2} $$

正态分布的标准化

标准正态分布是正态分布的特例,其均值为0,标准差为1。任何正态分布随机变量 \( X \) 都可以通过以下公式标准化为标准正态分布:

\[ Z = \frac{X - \mu}{\sigma} \]

Note

(1) 68-95-99.7 法则: 在正态分布中: - 约 68% 的数据落在 ( \(\mu \pm \sigma\) ) 之间。 - 约 95% 的数据落在 ( \(\mu \pm 2\sigma\) ) 之间。 - 约 99.7% 的数据落在 ( \(\mu \pm 3\sigma\) ) 之间。

(2) 对称性: 正态分布关于均值 ( \(\mu\) ) 对称:

\[ P(X \leq \mu - a) = P(X \geq \mu + a) \]