因果推断与处理混杂:一段高维度的概括
非随机漫步
2023年09月11日 16:06

(最近读了几篇文章,整理一下思路)

---

1. 在没有混杂(Confounding)的情况下

如果一个因果推断实验没有混杂变量,即实验的处理分配(Treatment Assignment)与特征 ( X ) 无关,那么这样的实验可以被认为是一个随机对照试验(Randomized Control Trial,RCT)。在这种简单场景下,估计处理效应(Treatment Effect)变得很简单直接:我们可以选择任何合适的预测模型进行分析。

2. 在存在混杂(Confounding)的情况下

当实验存在混杂变量时,因果推断变得更为复杂。以下是几种主要的处理思路:

Side-by-Side Method

一个人能想到的最简单粗暴的方法,应该就是训练两个独立模型。用他们来分别估计在 ( t=0 ) 和 ( t=1 ) 的潜在结果(Potential Outcomes)。然后,处理效应自然就是两个模型的差。专业术语一般叫这个方法“T-learner”或者“X-learner”。

但是一般来说这个方法,效率比较低,因为没有权重复用。

Propensity Method

倾向性加权方法(IPW)的核心逻辑是通过加权的方法,来抵消不同群体之间propensity score不一致的问题。

Matching Method

匹配方法尝试通过将具有相似特征的观测值分组在一起,来模拟一个局部的随机对照试验(Local RCT)。因为在局部分组中,彼此之间接受干预的概率差不多,我们大致可以认为干预是随机的。

最后干预效果的计算,直接用干预组均值,减去未干预组均值即可。

三者之间的组合

在上面,我列举了三个最常见的思路。但是他们的变化远不止于此,因为他们相互之间可以彼此组合、千变万化。

比如说,我们可以把X-learner和IP W结合起来,就得到了“doubly robust learner”;或者把propensity和matching结合起来,并用decision tree实现,就能得到Athey和Wager的propensity tree等等。

3. 对于 Propensity Method 的拓展思路:对抗性构建(Adversarial Construction)

最近出现了一种有趣的拓展,该方法使用对抗性构建来消除倾向性评分(Propensity Score)的影响。核心思想是通过嵌入(Embedding)技术将特征 ( X ) 转换到一个新的特征空间,在这个空间中,新的特征对结果 ( Y ) 有解释力,但对倾向性评分没有解释力。这通常是通过对抗性网络(Adversarial Networks)实现的,该网络试图找到一个嵌入,在该嵌入下,用于预测 ( Y ) 的模型表现良好,而用于预测倾向性评分的模型表现较差。

这样的方法不仅可能更有效地利用了所有可用的数据,还可能揭示了 ( X ) 和 ( Y ) 之间更为深刻的因果关系。但它也带来了额外的计算复杂性和模型设计的挑战。