概率分布
问题
什么是正态分布?常见的概率分布有哪些?中心极限定理是什么?
答案
概率分布描述了随机变量取各个值的概率规律,是理解假设检验和置信区间的前置知识。
常见分布一览
| 分布 | 类型 | 典型场景 | 关键参数 |
|---|---|---|---|
| 正态分布 | 连续 | 身高、考试成绩、误差 | μ(均值)、σ(标准差) |
| 二项分布 | 离散 | 抛硬币、点击率、转化率 | n(试验次数)、p(成功概率) |
| 泊松分布 | 离散 | 单位时间内的事件数(访问量、bug 数) | λ(平均发生率) |
| 均匀分布 | 连续 | 随机数生成、A/B 测试分桶 | a、b(区间) |
| 指数分布 | 连续 | 用户到达间隔、设备寿命 | λ(速率) |
正态分布
正态分布(高斯分布)是最重要的分布,因为很多自然现象近似正态,且中心极限定理保证了大样本均值近似正态。
关键性质(68-95-99.7 法则):
- 68.27% 的数据在 内
- 95.45% 的数据在 内
- 99.73% 的数据在 内
正态分布 Python 示例
import numpy as np
from scipy import stats
# 生成正态分布数据
data = np.random.normal(loc=100, scale=15, size=10000) # 均值100, 标准差15
# 概率计算
dist = stats.norm(loc=100, scale=15)
dist.cdf(130) # P(X ≤ 130) = 0.977
1 - dist.cdf(130) # P(X > 130) = 0.023
dist.ppf(0.95) # 95%分位数 = 124.67
# 标准化(Z 分数)
z = (130 - 100) / 15 # z = 2.0
stats.norm.cdf(z) # P(Z ≤ 2) = 0.977
二项分布
n 次独立的是/否试验中,成功 k 次的概率:
二项分布示例
from scipy import stats
# 1000 次展示,点击率 3%,至少 40 次点击的概率?
n, p = 1000, 0.03
dist = stats.binom(n, p)
prob = 1 - dist.cdf(39) # P(X >= 40)
# 当 n 大、p 适中时,二项分布 ≈ 正态分布
# 均值 = np = 30, 标准差 = sqrt(np(1-p)) = 5.39
泊松分布
单位时间内事件发生次数的分布(事件独立、发生率恒定):
泊松分布示例
from scipy import stats
# 平均每小时收到 5 个 bug 报告,1 小时内收到 8 个以上的概率?
dist = stats.poisson(mu=5)
prob = 1 - dist.cdf(8) # P(X > 8)
中心极限定理 (CLT)
中心极限定理 — 统计学最重要的定理
无论原始数据服从什么分布,只要样本量足够大(通常 n ≥ 30),样本均值的分布近似正态分布。
为什么重要:
- 即使原始数据是偏态的(如用户付费金额),大样本的均值也可以用正态分布来推断
- 这是假设检验(t 检验、z 检验)的理论基础
- 样本越大,均值分布越接近正态,标准误越小
CLT 直观演示
import numpy as np
# 原始数据:严重右偏的指数分布
population = np.random.exponential(scale=10, size=100000)
# 抽样 1000 次,每次取 50 个样本的均值
sample_means = [np.random.choice(population, 50).mean() for _ in range(1000)]
# sample_means 的分布接近正态分布(即使原始数据是指数分布!)
np.mean(sample_means) # ≈ 10(接近总体均值)
np.std(sample_means) # ≈ 10/√50 ≈ 1.41(标准误)
常见面试问题
Q1: 什么是正态分布?为什么它很重要?
答案:
- 正态分布(钟形曲线)由均值 μ 和标准差 σ 完全确定
- 重要性:(1) 很多自然现象近似正态;(2) 中心极限定理保证均值近似正态;(3) 大多数统计检验基于正态假设
- 68-95-99.7 法则描述了数据集中程度
Q2: 中心极限定理 (CLT) 是什么?有什么实际意义?
答案:
- 不论总体分布如何,当样本量 n 足够大时,样本均值近似正态分布
- 实际意义:让我们可以对任何分布的数据做推断统计(如 t 检验、置信区间)
- "足够大"通常指 n ≥ 30;如果原始分布严重偏态,需要更多样本
Q3: 什么场景用二项分布,什么场景用泊松分布?
答案:
- 二项分布:固定次数的"成功/失败"试验 → 转化率、点击率、A/B 测试
- 泊松分布:单位时间内随机事件的计数 → 每日 bug 数、每小时访客数
- 联系:当二项分布的 n 很大、p 很小时,二项分布 ≈ 泊松分布()
Q4: 标准正态分布和一般正态分布的区别?
答案:
- 标准正态分布:,记为
- 任何正态分布都可以标准化:
- 标准化后方便查表和比较不同量纲的数据