跳转至

统计学基础

概率、频率与小概率事件

  • 随机事件:随机现象某个可能的观察结果称为一个随机事件
  • 频率:观察到的随机事件某个结局的出现频次/比例,可以被直接观察到

  • 概率:概率刻画随机事件发生的可能性,其取值介于0到1之间。不能被直接观察到,但是可以通过频率估计,实验次数越多,估计越准确

正态分布

正态分布(Normal Distribution),又称高斯分布,是一种在统计学中最常见的概率分布。它描述了一种对称的、钟形的分布模式,常用于描述自然现象中的连续变量。

其概率密度函数定义如下

f(x)=12πσ2e(xμ)22σ2
  • μ \mu :均值,表示分布的中心位置。

  • σ \sigma :标准差,表示数据的离散程度。

  • σ2 \sigma^2 :方差,表示数据的波动范围。

正态分布的特征指标:

(1) 均值(Mean, μ) 均值是数据分布的中心点。正态分布的均值决定了分布的位置 μ=1ni=1nxi\mu = \frac{1}{n} \sum_{i=1}^{n} x_i

(2) 方差(Variance, σ2)方差表示数据与均值的偏离程度,是衡量数据离散程度的指标。 σ2=1ni=1n(xiμ)2\sigma^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \mu)^2

(3) 标准差(Standard Deviation, σ)) 标准差是方差的平方根 σ=σ2\sigma = \sqrt{\sigma^2}

正态分布的标准化

标准正态分布是正态分布的特例,其均值为0,标准差为1。任何正态分布随机变量 X 都可以通过以下公式标准化为标准正态分布:

Z=Xμσ

Note

(1) 68-95-99.7 法则: 在正态分布中: - 约 68% 的数据落在 ( μ±σ ) 之间。 - 约 95% 的数据落在 ( μ±2σ ) 之间。 - 约 99.7% 的数据落在 ( μ±3σ ) 之间。

(2) 对称性: 正态分布关于均值 ( μ ) 对称:

P(Xμa)=P(Xμ+a)