跳到主要内容

概率分布

问题

什么是正态分布?常见的概率分布有哪些?中心极限定理是什么?

答案

概率分布描述了随机变量取各个值的概率规律,是理解假设检验和置信区间的前置知识。

常见分布一览

分布类型典型场景关键参数
正态分布连续身高、考试成绩、误差μ(均值)、σ(标准差)
二项分布离散抛硬币、点击率、转化率n(试验次数)、p(成功概率)
泊松分布离散单位时间内的事件数(访问量、bug 数)λ(平均发生率)
均匀分布连续随机数生成、A/B 测试分桶a、b(区间)
指数分布连续用户到达间隔、设备寿命λ(速率)

正态分布

正态分布(高斯分布)是最重要的分布,因为很多自然现象近似正态,且中心极限定理保证了大样本均值近似正态。

关键性质(68-95-99.7 法则):

  • 68.27% 的数据在 μ±1σ\mu \pm 1\sigma
  • 95.45% 的数据在 μ±2σ\mu \pm 2\sigma
  • 99.73% 的数据在 μ±3σ\mu \pm 3\sigma
正态分布 Python 示例
import numpy as np
from scipy import stats

# 生成正态分布数据
data = np.random.normal(loc=100, scale=15, size=10000) # 均值100, 标准差15

# 概率计算
dist = stats.norm(loc=100, scale=15)
dist.cdf(130) # P(X ≤ 130) = 0.977
1 - dist.cdf(130) # P(X > 130) = 0.023
dist.ppf(0.95) # 95%分位数 = 124.67

# 标准化(Z 分数)
z = (130 - 100) / 15 # z = 2.0
stats.norm.cdf(z) # P(Z ≤ 2) = 0.977

二项分布

n 次独立的是/否试验中,成功 k 次的概率:

P(X=k)=(nk)pk(1p)nkP(X = k) = \binom{n}{k} p^k (1-p)^{n-k}
二项分布示例
from scipy import stats

# 1000 次展示,点击率 3%,至少 40 次点击的概率?
n, p = 1000, 0.03
dist = stats.binom(n, p)
prob = 1 - dist.cdf(39) # P(X >= 40)

# 当 n 大、p 适中时,二项分布 ≈ 正态分布
# 均值 = np = 30, 标准差 = sqrt(np(1-p)) = 5.39

泊松分布

单位时间内事件发生次数的分布(事件独立、发生率恒定):

P(X=k)=λkeλk!P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!}
泊松分布示例
from scipy import stats

# 平均每小时收到 5 个 bug 报告,1 小时内收到 8 个以上的概率?
dist = stats.poisson(mu=5)
prob = 1 - dist.cdf(8) # P(X > 8)

中心极限定理 (CLT)

中心极限定理 — 统计学最重要的定理

无论原始数据服从什么分布,只要样本量足够大(通常 n ≥ 30),样本均值的分布近似正态分布

XˉN(μ,σ2n)\bar{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right)

为什么重要

  • 即使原始数据是偏态的(如用户付费金额),大样本的均值也可以用正态分布来推断
  • 这是假设检验(t 检验、z 检验)的理论基础
  • 样本越大,均值分布越接近正态,标准误越小
CLT 直观演示
import numpy as np

# 原始数据:严重右偏的指数分布
population = np.random.exponential(scale=10, size=100000)

# 抽样 1000 次,每次取 50 个样本的均值
sample_means = [np.random.choice(population, 50).mean() for _ in range(1000)]

# sample_means 的分布接近正态分布(即使原始数据是指数分布!)
np.mean(sample_means) # ≈ 10(接近总体均值)
np.std(sample_means) # ≈ 10/√50 ≈ 1.41(标准误)

常见面试问题

Q1: 什么是正态分布?为什么它很重要?

答案

  • 正态分布(钟形曲线)由均值 μ 和标准差 σ 完全确定
  • 重要性:(1) 很多自然现象近似正态;(2) 中心极限定理保证均值近似正态;(3) 大多数统计检验基于正态假设
  • 68-95-99.7 法则描述了数据集中程度

Q2: 中心极限定理 (CLT) 是什么?有什么实际意义?

答案

  • 不论总体分布如何,当样本量 n 足够大时,样本均值近似正态分布
  • 实际意义:让我们可以对任何分布的数据做推断统计(如 t 检验、置信区间)
  • "足够大"通常指 n ≥ 30;如果原始分布严重偏态,需要更多样本

Q3: 什么场景用二项分布,什么场景用泊松分布?

答案

  • 二项分布:固定次数的"成功/失败"试验 → 转化率、点击率、A/B 测试
  • 泊松分布:单位时间内随机事件的计数 → 每日 bug 数、每小时访客数
  • 联系:当二项分布的 n 很大、p 很小时,二项分布 ≈ 泊松分布(λ=np\lambda = np

Q4: 标准正态分布和一般正态分布的区别?

答案

  • 标准正态分布:μ=0,σ=1\mu = 0, \sigma = 1,记为 ZN(0,1)Z \sim N(0, 1)
  • 任何正态分布都可以标准化Z=XμσZ = \frac{X - \mu}{\sigma}
  • 标准化后方便查表和比较不同量纲的数据

相关链接