首页Wiki 目录
UP | HOME

统计 Wiki

这页是统计笔记的公开精选版。原始 stat_wiki.org 仍然保留为完整草稿;这里先把适合公开阅读的统计学主线整理成可读正文,业务化、个人化和未清洗代码暂不放入。

快速导航

统计学习三要素

统计学习可以先抓住三个问题:用什么模型描述数据,按什么准则判断模型好坏,以及用什么算法求出模型参数。对应起来就是模型、策略、算法。

要素要回答的问题常见例子
模型假设输入和输出之间有什么关系线性模型、树模型、神经网络、半参数模型
策略怎样定义“好模型”平方损失、对数损失、经验风险、结构风险
算法如何把模型真正求出来最小二乘、梯度下降、坐标下降、EM、MCMC

理论上最自然的目标是最小化期望风险,也就是模型在真实数据分布下的平均损失:

R_exp(f) = E[L(Y, f(X))]

但真实联合分布通常不可知,所以实际建模会转向训练样本上的经验风险:

R_emp(f) = (1 / N) * sum L(y_i, f(x_i))

经验风险最小化容易理解,却可能过拟合;结构风险最小化会在损失外加入复杂度惩罚。Lasso、Ridge、Elastic Net 等正则化方法,本质上就是把“拟合得好”和“模型不要太复杂”放在一起权衡。

分类问题通常不适合直接用平方损失作为核心训练目标。平方损失关心数值差距,而分类更关心正确类别的概率是否足够大。因此,交叉熵更常用于分类模型,它直接惩罚模型给真实类别分配的概率太低。

概率论与测度基础

概率论的基础对象是概率空间,通常写成 (Omega, F, P)。其中 Omega 是样本空间,F 是事件集合,P 是给事件分配概率的函数。

  • Omega:随机试验所有可能结果的集合。例如抛硬币时,样本空间可以是 {正面, 反面}。
  • F:允许讨论概率的事件集合。它需要对补集、可数并等操作封闭,这就是 σ-代数的意义。
  • P:概率测度,把每个事件映射到 0 到 1 之间,并满足可数可加性。

测度论的作用,是把“长度、面积、体积、概率”放在同一套语言里。黎曼积分按横轴切分区间,勒贝格积分按函数值切分集合。对于统计学而言,勒贝格积分更自然,因为期望本质上就是对随机变量按概率测度积分。

常见收敛概念可以这样记:

概念直观含义常见用途
依概率收敛样本量增大后,估计量偏离真值的概率趋近于 0一致性
依分布收敛随机变量的分布逐渐接近某个极限分布中心极限定理
几乎处处收敛除概率为 0 的异常集合外都收敛强大数定律

指数族与充分统计量

许多重要分布都可以写成指数族形式,比如 Bernoulli、Binomial、Poisson、Normal、Gamma。一个常见写法是:

p(x | eta) = h(x) * exp(eta^T T(x) - A(eta))

这里 eta 是自然参数,T(x) 是统计量,A(eta) 负责归一化,h(x) 是基准测度项。指数族重要,是因为它把“分布形式、参数估计、充分统计量”联系到了一起。

充分统计量的核心直觉是:如果一个统计量已经保留了估计参数所需的全部信息,那么知道原始样本的每个细节就不再必要。

  • 抛硬币 n 次估计正面概率 p 时,正面次数 X 是充分统计量。
  • 观察 n 天公交车到达次数,若每天次数服从 Poisson 分布,则总次数 T = X_1 + ... + X_n 是关于 lambda 的充分统计量。

充分统计量的价值在于压缩数据而不丢失关于参数的信息。它是理解最大似然估计、指数族、Rao-Blackwell 化等内容的一条主线。

贝叶斯与经验贝叶斯

贝叶斯公式把先验、似然和后验联系起来:

posterior ∝ likelihood * prior

更具体地写,就是:

p(theta | X) = p(X | theta) * p(theta) / p(X)

这句话很朴素:先验表示观察数据前对参数的认识,似然表示参数生成当前数据的可能性,后验表示看完数据后更新过的认识。

经验贝叶斯进一步使用数据自身来估计先验分布的参数。一个典型流程是:

  1. 用总体数据估计先验分布的超参数。
  2. 把估计出的先验放入贝叶斯公式。
  3. 对每个个体或实验单元计算后验分布。

例如抛硬币问题中,如果正面概率 theta 的先验取 Beta 分布,观测数据服从二项分布,那么后验仍然是 Beta 分布。若先验为 Beta(a, b),一次实验抛 n 次,正面出现 d 次,则后验参数更新为:

Beta(a + d, b + n - d)

这类共轭结构使贝叶斯更新非常清晰,也适合解释“信息如何随着样本增加而被修正”。

回归与正则化

回归模型是统计建模里最常用的一组工具。线性回归适合连续因变量,Logistic 回归适合二分类概率,Cox 模型适合带删失的生存时间分析。它们看起来不同,但都在回答同一个问题:解释变量如何影响目标变量。

模型目标变量常见问题
线性回归连续数值均值如何随自变量变化
Logistic 回归二分类事件发生概率如何变化
Cox 模型生存时间风险率如何随协变量变化
GLM指数族响应变量用连接函数统一不同分布

正则化用于处理变量多、共线性强、模型不稳定等问题:

  • Ridge:加入 L2 惩罚,能缓解共线性,但通常不会把系数压到 0。
  • Lasso:加入 L1 惩罚,可以做变量选择,把部分系数压到 0。
  • Elastic Net:结合 L1 和 L2,适合高维且变量成组相关的情况。
  • SCAD / MCP:试图减少 Lasso 对大系数的过度收缩。

建模时不要只看显著性。还要检查残差、共线性、样本外表现、校准程度,以及变量是否有合理解释。一个稳定但稍简单的模型,经常比一个训练集上表现惊艳但无法解释的模型更有用。

统计检验与模型评估

统计检验的基本结构是:先给出原假设,再选择检验统计量,最后计算在原假设成立时观察到当前或更极端结果的概率,也就是 P 值。

检验常见用途关注点
t 检验均值比较正态性、独立性、方差假设
F 检验方差比较、模型整体检验方差结构与模型嵌套关系
卡方检验列联表、拟合优度期望频数不能太小
K-S 检验分布差异比较经验分布与理论分布
Shapiro-Wilk正态性检验小样本下常用

P 值不是“原假设为真的概率”,也不是“结果重要性的大小”。它只是说明:如果原假设成立,当前数据有多反常。实际判断还要结合效应大小、置信区间、样本量和业务含义。

模型评估也不能只看训练集表现。分类模型关注 AUC、Precision、Recall、F1、校准曲线;回归模型关注 RMSE、MAE、残差结构;生存模型还会看 C-index、校准和时间依赖指标。

机器学习方法

机器学习可以先按任务分成三类:有监督、无监督、半监督。有监督学习有明确标签,无监督学习主要寻找结构,半监督学习利用少量标签加大量未标注数据。

  • KNN:根据邻近样本投票或平均,直观但对尺度敏感。
  • Naive Bayes:利用条件独立假设快速分类,文本场景常见。
  • SVM:寻找最大间隔分类面,核函数可以处理非线性边界。
  • 决策树:按信息增益、基尼系数等指标递归划分样本。
  • 随机森林:多棵树做集成,降低单棵树的方差。
  • Boosting:逐步修正前一轮模型的错误,GBDT、XGBoost、LightGBM 都在这条线上。

K-means 是典型的无监督聚类方法。它先选定 K 个中心,把样本分配到最近中心,再更新中心,直到分配结果稳定。它的问题是容易受初始点影响,因此常见做法是多次随机初始化,选择损失最小的一次。

PCA 的目标是寻找方差最大的低维方向。它既可以用于降维,也可以用于理解高维变量中的主要变化结构。使用 PCA 时要注意标准化,否则量纲大的变量会支配主成分。

因果推断

相关不等于因果。统计建模通常回答“给定特征,结果如何变化”,因果推断进一步追问“如果我们主动干预某个变量,结果会怎样变化”。

因果推断的关键是识别:在什么假设下,可以从观察数据中恢复干预效果。常见工具包括:

  • 因果图:用图结构表达变量之间的因果关系,帮助识别混杂变量。
  • 后门调整:通过控制合适的混杂变量,阻断非因果路径。
  • 倾向性评分:估计个体接受处理的概率,用于匹配、分层或加权。
  • 双重稳健估计:结合处理模型和结果模型,只要其中一个模型设定正确,就仍有机会得到一致估计。
  • 双重机器学习:用机器学习估计高维混杂结构,再通过正交化减少偏误。

公开笔记里因果推断只保留方法论本身。涉及业务制度、客户数据、风控案例的内容,应先匿名化和抽象化,再决定是否发布。

后续整理顺序

  1. 先把“充分统计量、指数族、MLE、贝叶斯”整理成一篇统计推断文章。
  2. 再整理“线性回归、Logistic、Cox、正则化”这一组建模文章。
  3. 最后把机器学习和因果推断拆成独立 Wiki,避免统计页过度膨胀。

返回 Wiki