统计 Wiki

这页是统计笔记的公开精选版。原始 stat_wiki.org 仍然保留为完整草稿；这里先把适合公开阅读的统计学主线整理成可读正文，业务化、个人化和未清洗代码暂不放入。

快速导航

统计学习三要素
概率论与测度基础
指数族与充分统计量
贝叶斯与经验贝叶斯
回归与正则化
统计检验与模型评估
机器学习方法
因果推断

统计学习三要素

统计学习可以先抓住三个问题：用什么模型描述数据，按什么准则判断模型好坏，以及用什么算法求出模型参数。对应起来就是模型、策略、算法。

要素	要回答的问题	常见例子
模型	假设输入和输出之间有什么关系	线性模型、树模型、神经网络、半参数模型
策略	怎样定义“好模型”	平方损失、对数损失、经验风险、结构风险
算法	如何把模型真正求出来	最小二乘、梯度下降、坐标下降、EM、MCMC

理论上最自然的目标是最小化期望风险，也就是模型在真实数据分布下的平均损失：

R_exp(f) = E[L(Y, f(X))]

但真实联合分布通常不可知，所以实际建模会转向训练样本上的经验风险：

R_emp(f) = (1 / N) * sum L(y_i, f(x_i))

经验风险最小化容易理解，却可能过拟合；结构风险最小化会在损失外加入复杂度惩罚。Lasso、Ridge、Elastic Net 等正则化方法，本质上就是把“拟合得好”和“模型不要太复杂”放在一起权衡。

分类问题通常不适合直接用平方损失作为核心训练目标。平方损失关心数值差距，而分类更关心正确类别的概率是否足够大。因此，交叉熵更常用于分类模型，它直接惩罚模型给真实类别分配的概率太低。

概率论与测度基础

概率论的基础对象是概率空间，通常写成 (Omega, F, P)。其中 Omega 是样本空间，F 是事件集合，P 是给事件分配概率的函数。

Omega：随机试验所有可能结果的集合。例如抛硬币时，样本空间可以是 {正面, 反面}。
F：允许讨论概率的事件集合。它需要对补集、可数并等操作封闭，这就是 σ-代数的意义。
P：概率测度，把每个事件映射到 0 到 1 之间，并满足可数可加性。

测度论的作用，是把“长度、面积、体积、概率”放在同一套语言里。黎曼积分按横轴切分区间，勒贝格积分按函数值切分集合。对于统计学而言，勒贝格积分更自然，因为期望本质上就是对随机变量按概率测度积分。

常见收敛概念可以这样记：

概念	直观含义	常见用途
依概率收敛	样本量增大后，估计量偏离真值的概率趋近于 0	一致性
依分布收敛	随机变量的分布逐渐接近某个极限分布	中心极限定理
几乎处处收敛	除概率为 0 的异常集合外都收敛	强大数定律

指数族与充分统计量

许多重要分布都可以写成指数族形式，比如 Bernoulli、Binomial、Poisson、Normal、Gamma。一个常见写法是：

p(x | eta) = h(x) * exp(eta^T T(x) - A(eta))

这里 eta 是自然参数，T(x) 是统计量，A(eta) 负责归一化，h(x) 是基准测度项。指数族重要，是因为它把“分布形式、参数估计、充分统计量”联系到了一起。

充分统计量的核心直觉是：如果一个统计量已经保留了估计参数所需的全部信息，那么知道原始样本的每个细节就不再必要。

抛硬币 n 次估计正面概率 p 时，正面次数 X 是充分统计量。
观察 n 天公交车到达次数，若每天次数服从 Poisson 分布，则总次数 T = X_1 + ... + X_n 是关于 lambda 的充分统计量。

充分统计量的价值在于压缩数据而不丢失关于参数的信息。它是理解最大似然估计、指数族、Rao-Blackwell 化等内容的一条主线。

贝叶斯与经验贝叶斯

贝叶斯公式把先验、似然和后验联系起来：

posterior ∝ likelihood * prior

更具体地写，就是：

p(theta | X) = p(X | theta) * p(theta) / p(X)

这句话很朴素：先验表示观察数据前对参数的认识，似然表示参数生成当前数据的可能性，后验表示看完数据后更新过的认识。

经验贝叶斯进一步使用数据自身来估计先验分布的参数。一个典型流程是：

用总体数据估计先验分布的超参数。
把估计出的先验放入贝叶斯公式。
对每个个体或实验单元计算后验分布。

例如抛硬币问题中，如果正面概率 theta 的先验取 Beta 分布，观测数据服从二项分布，那么后验仍然是 Beta 分布。若先验为 Beta(a, b)，一次实验抛 n 次，正面出现 d 次，则后验参数更新为：

Beta(a + d, b + n - d)

这类共轭结构使贝叶斯更新非常清晰，也适合解释“信息如何随着样本增加而被修正”。

回归与正则化

回归模型是统计建模里最常用的一组工具。线性回归适合连续因变量，Logistic 回归适合二分类概率，Cox 模型适合带删失的生存时间分析。它们看起来不同，但都在回答同一个问题：解释变量如何影响目标变量。

模型	目标变量	常见问题
线性回归	连续数值	均值如何随自变量变化
Logistic 回归	二分类	事件发生概率如何变化
Cox 模型	生存时间	风险率如何随协变量变化
GLM	指数族响应变量	用连接函数统一不同分布

正则化用于处理变量多、共线性强、模型不稳定等问题：

Ridge：加入 L2 惩罚，能缓解共线性，但通常不会把系数压到 0。
Lasso：加入 L1 惩罚，可以做变量选择，把部分系数压到 0。
Elastic Net：结合 L1 和 L2，适合高维且变量成组相关的情况。
SCAD / MCP：试图减少 Lasso 对大系数的过度收缩。

建模时不要只看显著性。还要检查残差、共线性、样本外表现、校准程度，以及变量是否有合理解释。一个稳定但稍简单的模型，经常比一个训练集上表现惊艳但无法解释的模型更有用。

统计检验与模型评估

统计检验的基本结构是：先给出原假设，再选择检验统计量，最后计算在原假设成立时观察到当前或更极端结果的概率，也就是 P 值。

检验	常见用途	关注点
t 检验	均值比较	正态性、独立性、方差假设
F 检验	方差比较、模型整体检验	方差结构与模型嵌套关系
卡方检验	列联表、拟合优度	期望频数不能太小
K-S 检验	分布差异	比较经验分布与理论分布
Shapiro-Wilk	正态性检验	小样本下常用

P 值不是“原假设为真的概率”，也不是“结果重要性的大小”。它只是说明：如果原假设成立，当前数据有多反常。实际判断还要结合效应大小、置信区间、样本量和业务含义。

模型评估也不能只看训练集表现。分类模型关注 AUC、Precision、Recall、F1、校准曲线；回归模型关注 RMSE、MAE、残差结构；生存模型还会看 C-index、校准和时间依赖指标。

机器学习方法

机器学习可以先按任务分成三类：有监督、无监督、半监督。有监督学习有明确标签，无监督学习主要寻找结构，半监督学习利用少量标签加大量未标注数据。

KNN：根据邻近样本投票或平均，直观但对尺度敏感。
Naive Bayes：利用条件独立假设快速分类，文本场景常见。
SVM：寻找最大间隔分类面，核函数可以处理非线性边界。
决策树：按信息增益、基尼系数等指标递归划分样本。
随机森林：多棵树做集成，降低单棵树的方差。
Boosting：逐步修正前一轮模型的错误，GBDT、XGBoost、LightGBM 都在这条线上。

K-means 是典型的无监督聚类方法。它先选定 K 个中心，把样本分配到最近中心，再更新中心，直到分配结果稳定。它的问题是容易受初始点影响，因此常见做法是多次随机初始化，选择损失最小的一次。

PCA 的目标是寻找方差最大的低维方向。它既可以用于降维，也可以用于理解高维变量中的主要变化结构。使用 PCA 时要注意标准化，否则量纲大的变量会支配主成分。

因果推断

相关不等于因果。统计建模通常回答“给定特征，结果如何变化”，因果推断进一步追问“如果我们主动干预某个变量，结果会怎样变化”。

因果推断的关键是识别：在什么假设下，可以从观察数据中恢复干预效果。常见工具包括：

因果图：用图结构表达变量之间的因果关系，帮助识别混杂变量。
后门调整：通过控制合适的混杂变量，阻断非因果路径。
倾向性评分：估计个体接受处理的概率，用于匹配、分层或加权。
双重稳健估计：结合处理模型和结果模型，只要其中一个模型设定正确，就仍有机会得到一致估计。
双重机器学习：用机器学习估计高维混杂结构，再通过正交化减少偏误。

公开笔记里因果推断只保留方法论本身。涉及业务制度、客户数据、风控案例的内容，应先匿名化和抽象化，再决定是否发布。

后续整理顺序

先把“充分统计量、指数族、MLE、贝叶斯”整理成一篇统计推断文章。
再整理“线性回归、Logistic、Cox、正则化”这一组建模文章。
最后把机器学习和因果推断拆成独立 Wiki，避免统计页过度膨胀。

返回 Wiki