统计 Wiki
这页是统计笔记的公开精选版。原始 stat_wiki.org
仍然保留为完整草稿;这里先把适合公开阅读的统计学主线整理成可读正文,业务化、个人化和未清洗代码暂不放入。
统计学习三要素
统计学习可以先抓住三个问题:用什么模型描述数据,按什么准则判断模型好坏,以及用什么算法求出模型参数。对应起来就是模型、策略、算法。
| 要素 | 要回答的问题 | 常见例子 |
|---|---|---|
| 模型 | 假设输入和输出之间有什么关系 | 线性模型、树模型、神经网络、半参数模型 |
| 策略 | 怎样定义“好模型” | 平方损失、对数损失、经验风险、结构风险 |
| 算法 | 如何把模型真正求出来 | 最小二乘、梯度下降、坐标下降、EM、MCMC |
理论上最自然的目标是最小化期望风险,也就是模型在真实数据分布下的平均损失:
R_exp(f) = E[L(Y, f(X))]
但真实联合分布通常不可知,所以实际建模会转向训练样本上的经验风险:
R_emp(f) = (1 / N) * sum L(y_i, f(x_i))
经验风险最小化容易理解,却可能过拟合;结构风险最小化会在损失外加入复杂度惩罚。Lasso、Ridge、Elastic Net 等正则化方法,本质上就是把“拟合得好”和“模型不要太复杂”放在一起权衡。
分类问题通常不适合直接用平方损失作为核心训练目标。平方损失关心数值差距,而分类更关心正确类别的概率是否足够大。因此,交叉熵更常用于分类模型,它直接惩罚模型给真实类别分配的概率太低。
概率论与测度基础
概率论的基础对象是概率空间,通常写成 (Omega, F, P)。其中 Omega 是样本空间,F 是事件集合,P 是给事件分配概率的函数。
Omega:随机试验所有可能结果的集合。例如抛硬币时,样本空间可以是 {正面, 反面}。F:允许讨论概率的事件集合。它需要对补集、可数并等操作封闭,这就是 σ-代数的意义。P:概率测度,把每个事件映射到 0 到 1 之间,并满足可数可加性。
测度论的作用,是把“长度、面积、体积、概率”放在同一套语言里。黎曼积分按横轴切分区间,勒贝格积分按函数值切分集合。对于统计学而言,勒贝格积分更自然,因为期望本质上就是对随机变量按概率测度积分。
常见收敛概念可以这样记:
| 概念 | 直观含义 | 常见用途 |
|---|---|---|
| 依概率收敛 | 样本量增大后,估计量偏离真值的概率趋近于 0 | 一致性 |
| 依分布收敛 | 随机变量的分布逐渐接近某个极限分布 | 中心极限定理 |
| 几乎处处收敛 | 除概率为 0 的异常集合外都收敛 | 强大数定律 |
指数族与充分统计量
许多重要分布都可以写成指数族形式,比如 Bernoulli、Binomial、Poisson、Normal、Gamma。一个常见写法是:
p(x | eta) = h(x) * exp(eta^T T(x) - A(eta))
这里 eta 是自然参数,T(x) 是统计量,A(eta) 负责归一化,h(x) 是基准测度项。指数族重要,是因为它把“分布形式、参数估计、充分统计量”联系到了一起。
充分统计量的核心直觉是:如果一个统计量已经保留了估计参数所需的全部信息,那么知道原始样本的每个细节就不再必要。
- 抛硬币
n次估计正面概率p时,正面次数X是充分统计量。 - 观察
n天公交车到达次数,若每天次数服从 Poisson 分布,则总次数T = X_1 + ... + X_n是关于lambda的充分统计量。
充分统计量的价值在于压缩数据而不丢失关于参数的信息。它是理解最大似然估计、指数族、Rao-Blackwell 化等内容的一条主线。
贝叶斯与经验贝叶斯
贝叶斯公式把先验、似然和后验联系起来:
posterior ∝ likelihood * prior
更具体地写,就是:
p(theta | X) = p(X | theta) * p(theta) / p(X)
这句话很朴素:先验表示观察数据前对参数的认识,似然表示参数生成当前数据的可能性,后验表示看完数据后更新过的认识。
经验贝叶斯进一步使用数据自身来估计先验分布的参数。一个典型流程是:
- 用总体数据估计先验分布的超参数。
- 把估计出的先验放入贝叶斯公式。
- 对每个个体或实验单元计算后验分布。
例如抛硬币问题中,如果正面概率 theta 的先验取 Beta 分布,观测数据服从二项分布,那么后验仍然是 Beta 分布。若先验为 Beta(a, b),一次实验抛 n 次,正面出现 d 次,则后验参数更新为:
Beta(a + d, b + n - d)
这类共轭结构使贝叶斯更新非常清晰,也适合解释“信息如何随着样本增加而被修正”。
回归与正则化
回归模型是统计建模里最常用的一组工具。线性回归适合连续因变量,Logistic 回归适合二分类概率,Cox 模型适合带删失的生存时间分析。它们看起来不同,但都在回答同一个问题:解释变量如何影响目标变量。
| 模型 | 目标变量 | 常见问题 |
|---|---|---|
| 线性回归 | 连续数值 | 均值如何随自变量变化 |
| Logistic 回归 | 二分类 | 事件发生概率如何变化 |
| Cox 模型 | 生存时间 | 风险率如何随协变量变化 |
| GLM | 指数族响应变量 | 用连接函数统一不同分布 |
正则化用于处理变量多、共线性强、模型不稳定等问题:
- Ridge:加入 L2 惩罚,能缓解共线性,但通常不会把系数压到 0。
- Lasso:加入 L1 惩罚,可以做变量选择,把部分系数压到 0。
- Elastic Net:结合 L1 和 L2,适合高维且变量成组相关的情况。
- SCAD / MCP:试图减少 Lasso 对大系数的过度收缩。
建模时不要只看显著性。还要检查残差、共线性、样本外表现、校准程度,以及变量是否有合理解释。一个稳定但稍简单的模型,经常比一个训练集上表现惊艳但无法解释的模型更有用。
统计检验与模型评估
统计检验的基本结构是:先给出原假设,再选择检验统计量,最后计算在原假设成立时观察到当前或更极端结果的概率,也就是 P 值。
| 检验 | 常见用途 | 关注点 |
|---|---|---|
| t 检验 | 均值比较 | 正态性、独立性、方差假设 |
| F 检验 | 方差比较、模型整体检验 | 方差结构与模型嵌套关系 |
| 卡方检验 | 列联表、拟合优度 | 期望频数不能太小 |
| K-S 检验 | 分布差异 | 比较经验分布与理论分布 |
| Shapiro-Wilk | 正态性检验 | 小样本下常用 |
P 值不是“原假设为真的概率”,也不是“结果重要性的大小”。它只是说明:如果原假设成立,当前数据有多反常。实际判断还要结合效应大小、置信区间、样本量和业务含义。
模型评估也不能只看训练集表现。分类模型关注 AUC、Precision、Recall、F1、校准曲线;回归模型关注 RMSE、MAE、残差结构;生存模型还会看 C-index、校准和时间依赖指标。
机器学习方法
机器学习可以先按任务分成三类:有监督、无监督、半监督。有监督学习有明确标签,无监督学习主要寻找结构,半监督学习利用少量标签加大量未标注数据。
- KNN:根据邻近样本投票或平均,直观但对尺度敏感。
- Naive Bayes:利用条件独立假设快速分类,文本场景常见。
- SVM:寻找最大间隔分类面,核函数可以处理非线性边界。
- 决策树:按信息增益、基尼系数等指标递归划分样本。
- 随机森林:多棵树做集成,降低单棵树的方差。
- Boosting:逐步修正前一轮模型的错误,GBDT、XGBoost、LightGBM 都在这条线上。
K-means 是典型的无监督聚类方法。它先选定 K 个中心,把样本分配到最近中心,再更新中心,直到分配结果稳定。它的问题是容易受初始点影响,因此常见做法是多次随机初始化,选择损失最小的一次。
PCA 的目标是寻找方差最大的低维方向。它既可以用于降维,也可以用于理解高维变量中的主要变化结构。使用 PCA 时要注意标准化,否则量纲大的变量会支配主成分。
因果推断
相关不等于因果。统计建模通常回答“给定特征,结果如何变化”,因果推断进一步追问“如果我们主动干预某个变量,结果会怎样变化”。
因果推断的关键是识别:在什么假设下,可以从观察数据中恢复干预效果。常见工具包括:
- 因果图:用图结构表达变量之间的因果关系,帮助识别混杂变量。
- 后门调整:通过控制合适的混杂变量,阻断非因果路径。
- 倾向性评分:估计个体接受处理的概率,用于匹配、分层或加权。
- 双重稳健估计:结合处理模型和结果模型,只要其中一个模型设定正确,就仍有机会得到一致估计。
- 双重机器学习:用机器学习估计高维混杂结构,再通过正交化减少偏误。
公开笔记里因果推断只保留方法论本身。涉及业务制度、客户数据、风控案例的内容,应先匿名化和抽象化,再决定是否发布。
后续整理顺序
- 先把“充分统计量、指数族、MLE、贝叶斯”整理成一篇统计推断文章。
- 再整理“线性回归、Logistic、Cox、正则化”这一组建模文章。
- 最后把机器学习和因果推断拆成独立 Wiki,避免统计页过度膨胀。