概率分布

问题

什么是正态分布？常见的概率分布有哪些？中心极限定理是什么？

答案

概率分布描述了随机变量取各个值的概率规律，是理解假设检验和置信区间的前置知识。

常见分布一览

分布	类型	典型场景	关键参数
正态分布	连续	身高、考试成绩、误差	μ（均值）、σ（标准差）
二项分布	离散	抛硬币、点击率、转化率	n（试验次数）、p（成功概率）
泊松分布	离散	单位时间内的事件数（访问量、bug 数）	λ（平均发生率）
均匀分布	连续	随机数生成、A/B 测试分桶	a、b（区间）
指数分布	连续	用户到达间隔、设备寿命	λ（速率）

正态分布

正态分布（高斯分布）是最重要的分布，因为很多自然现象近似正态，且中心极限定理保证了大样本均值近似正态。

关键性质（68-95-99.7 法则）：

68.27% 的数据在 $\mu \pm 1\sigma$ 内
95.45% 的数据在 $\mu \pm 2\sigma$ 内
99.73% 的数据在 $\mu \pm 3\sigma$ 内

正态分布 Python 示例
import numpy as np
from scipy import stats

# 生成正态分布数据
data = np.random.normal(loc=100, scale=15, size=10000)  # 均值100, 标准差15

# 概率计算
dist = stats.norm(loc=100, scale=15)
dist.cdf(130)          # P(X ≤ 130) = 0.977
1 - dist.cdf(130)      # P(X > 130) = 0.023
dist.ppf(0.95)         # 95%分位数 = 124.67

# 标准化（Z 分数）
z = (130 - 100) / 15   # z = 2.0
stats.norm.cdf(z)      # P(Z ≤ 2) = 0.977

二项分布

n 次独立的是/否试验中，成功 k 次的概率：

P(X = k) = \binom{n}{k} p^k (1-p)^{n-k}

二项分布示例
from scipy import stats

# 1000 次展示，点击率 3%，至少 40 次点击的概率？
n, p = 1000, 0.03
dist = stats.binom(n, p)
prob = 1 - dist.cdf(39)  # P(X >= 40)

# 当 n 大、p 适中时，二项分布 ≈ 正态分布
# 均值 = np = 30, 标准差 = sqrt(np(1-p)) = 5.39

泊松分布

单位时间内事件发生次数的分布（事件独立、发生率恒定）：

P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!}

泊松分布示例
from scipy import stats

# 平均每小时收到 5 个 bug 报告，1 小时内收到 8 个以上的概率？
dist = stats.poisson(mu=5)
prob = 1 - dist.cdf(8)  # P(X > 8)

中心极限定理 (CLT)

中心极限定理 — 统计学最重要的定理

无论原始数据服从什么分布，只要样本量足够大（通常 n ≥ 30），样本均值的分布近似正态分布。

\bar{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right)

为什么重要：

即使原始数据是偏态的（如用户付费金额），大样本的均值也可以用正态分布来推断
这是假设检验（t 检验、z 检验）的理论基础
样本越大，均值分布越接近正态，标准误越小

CLT 直观演示
import numpy as np

# 原始数据：严重右偏的指数分布
population = np.random.exponential(scale=10, size=100000)

# 抽样 1000 次，每次取 50 个样本的均值
sample_means = [np.random.choice(population, 50).mean() for _ in range(1000)]

# sample_means 的分布接近正态分布（即使原始数据是指数分布！）
np.mean(sample_means)  # ≈ 10（接近总体均值）
np.std(sample_means)   # ≈ 10/√50 ≈ 1.41（标准误）

常见面试问题

Q1: 什么是正态分布？为什么它很重要？

答案：

正态分布（钟形曲线）由均值 μ 和标准差 σ 完全确定
重要性：(1) 很多自然现象近似正态；(2) 中心极限定理保证均值近似正态；(3) 大多数统计检验基于正态假设
68-95-99.7 法则描述了数据集中程度

Q2: 中心极限定理 (CLT) 是什么？有什么实际意义？

答案：

不论总体分布如何，当样本量 n 足够大时，样本均值近似正态分布
实际意义：让我们可以对任何分布的数据做推断统计（如 t 检验、置信区间）
"足够大"通常指 n ≥ 30；如果原始分布严重偏态，需要更多样本

Q3: 什么场景用二项分布，什么场景用泊松分布？

答案：

二项分布：固定次数的"成功/失败"试验 → 转化率、点击率、A/B 测试
泊松分布：单位时间内随机事件的计数 → 每日 bug 数、每小时访客数
联系：当二项分布的 n 很大、p 很小时，二项分布 ≈ 泊松分布（ $\lambda = np$ ）

Q4: 标准正态分布和一般正态分布的区别？

答案：

标准正态分布： $\mu = 0, \sigma = 1$ ，记为 $Z \sim N(0, 1)$
任何正态分布都可以标准化： $Z = \frac{X - \mu}{\sigma}$
标准化后方便查表和比较不同量纲的数据

问题​

答案​

常见分布一览​

正态分布​

二项分布​

泊松分布​

中心极限定理 (CLT)​

常见面试问题​

Q1: 什么是正态分布？为什么它很重要？​

Q2: 中心极限定理 (CLT) 是什么？有什么实际意义？​

Q3: 什么场景用二项分布，什么场景用泊松分布？​

Q4: 标准正态分布和一般正态分布的区别？​

相关链接​

问题

答案