因果推断与处理混杂：一段高维度的概括

非随机漫步

2023年09月11日 16:06

（最近读了几篇文章，整理一下思路）

---

1. 在没有混杂（Confounding）的情况下

如果一个因果推断实验没有混杂变量，即实验的处理分配（Treatment Assignment）与特征 ( X ) 无关，那么这样的实验可以被认为是一个随机对照试验（Randomized Control Trial，RCT）。在这种简单场景下，估计处理效应（Treatment Effect）变得很简单直接：我们可以选择任何合适的预测模型进行分析。

2. 在存在混杂（Confounding）的情况下

当实验存在混杂变量时，因果推断变得更为复杂。以下是几种主要的处理思路：

Side-by-Side Method

一个人能想到的最简单粗暴的方法，应该就是训练两个独立模型。用他们来分别估计在 ( t=0 ) 和 ( t=1 ) 的潜在结果（Potential Outcomes）。然后，处理效应自然就是两个模型的差。专业术语一般叫这个方法“T-learner”或者“X-learner”。

但是一般来说这个方法，效率比较低，因为没有权重复用。

Propensity Method

倾向性加权方法（IPW）的核心逻辑是通过加权的方法，来抵消不同群体之间propensity score不一致的问题。

Matching Method

匹配方法尝试通过将具有相似特征的观测值分组在一起，来模拟一个局部的随机对照试验（Local RCT）。因为在局部分组中，彼此之间接受干预的概率差不多，我们大致可以认为干预是随机的。

最后干预效果的计算，直接用干预组均值，减去未干预组均值即可。

三者之间的组合

在上面，我列举了三个最常见的思路。但是他们的变化远不止于此，因为他们相互之间可以彼此组合、千变万化。

比如说，我们可以把X-learner和IP W结合起来，就得到了“doubly robust learner”；或者把propensity和matching结合起来，并用decision tree实现，就能得到Athey和Wager的propensity tree等等。

3. 对于 Propensity Method 的拓展思路：对抗性构建（Adversarial Construction）

最近出现了一种有趣的拓展，该方法使用对抗性构建来消除倾向性评分（Propensity Score）的影响。核心思想是通过嵌入（Embedding）技术将特征 ( X ) 转换到一个新的特征空间，在这个空间中，新的特征对结果 ( Y ) 有解释力，但对倾向性评分没有解释力。这通常是通过对抗性网络（Adversarial Networks）实现的，该网络试图找到一个嵌入，在该嵌入下，用于预测 ( Y ) 的模型表现良好，而用于预测倾向性评分的模型表现较差。

这样的方法不仅可能更有效地利用了所有可用的数据，还可能揭示了 ( X ) 和 ( Y ) 之间更为深刻的因果关系。但它也带来了额外的计算复杂性和模型设计的挑战。

本文为我原创，未经授权禁止转载

cv26459995

分享至

投诉或建议