一、因果推理的基本概念
1、因果推理
哲学上把现象和现象之间那种“引起和被引起”的关系,叫做因果关系,其中引起某种现象产生的现象叫做原因,被某种现象引起的现象叫做结果。因果推理是一种重要的推理手段,是人类智能的重要组成。
2、辛普森悖论
辛普森悖论是统计学中的一种反直觉现象,指的是在分组数据中,某种趋势在各子组中都存在,但当把所有数据合并后,趋势却发生了逆转。例如,某药物在男性和女性两个子组都有提高治愈率的效果,但合并数据后可能反而显示总体治愈率下降。这是因为分组比例不同或其他潜在变量影响了整体结果。辛普森悖论提醒我们,在分析数据时,要注意分组情况和潜在的混杂因素,不能只看总体数据,否则可能得出错误的结论。
3、因果推理的主要模型
(1) 结构因果模型
结构因果模型(Structural Causal Model, SCM)是一种用来描述和分析因果关系的数学模型。它将真实世界中的变量及其因果关系用节点和有向边表示,通常使用有向无环图(DAG, Directed Acyclic Graph)。每个节点代表一个变量,每条有向边表示变量之间的直接因果影响。结构因果模型由三个要素组成:变量集合、结构方程(即每个变量如何由其他变量决定)和外生噪声变量。通过SCM,我们可以明确区分相关性和因果性,并能用“do运算”等方法计算干预的结果。结构因果模型广泛用于科学、经济学、人工智能等领域,用于推断因果效应、识别混淆变量和进行反事实分析。
结构因果模型由两组变量集合
在结构因果模型框架下讨论某种治疗方案X对肝脏功能
每个结构因果模型
(2) 因果图模型
在因果图中,若变量Y是另一个变量
(3) 因果图中联合概率分布
对于任意的有向无环图模型,模型中
其中,
对于一个简单的链式图
二、因果图结构
1、链结构
链是因果图的一种基本结构。它包含三个节点两条边,其中一条边由第一个节点指向第二个节点,另一条边由第二个节点指向第三个节点。
如上图,对于变量
2、分连结构
分连也是因果图的一种基本结构。它包含三个节点两条边,两条边分别由第一个节点指向第二个节点和第三个节点。
在分连结构中,给定
即在分连图
若变量
3、汇连结构
汇连(又叫碰撞)也是因果图的一种基本结构。它包含三个节点两条边,两条边分别由第一个节点和第二个节点指向第三个节点。
在汇连结构中,给定
即在汇连图
若变量
4、D-分离
D-分离,可用于判断任意两个节点的相关性和独立性。若存在一条路径将这两个节点(直接)连通,则称这两个节点是有向连接的,即这两个节点是相关的;若不存在这样的路径将这两个节点连通,则这两个节点不是有向连接的,则称这两个节点是有向分离的,即这两个节点相互独立。
D-分离:路径
三、因果反事实模型
1、干预的因果模型
干预指的是固定系统中的变量,然后改变系统,观察其他变量的变化。
为了与
因此,
以变量为条件是改变了看世界的角度,而干预则改变了世界本身。
2、因果效应差
因果效应差是指在其他条件相同的情况下,某个变量(通常是处理或干预变量)的不同取值对于结果变量的期望值造成的差异。它通常表示为,在设定某种干预和不干预时,结果变量之间的平均差值。而在设定某种干预的情况下变量产生的变化成为因果效应。
给定因果图
3、反事实模型
反事实描述的是假设存在一个虚拟的平行世界,里面的所有因素与现实世界一模一样,两个相同的个体他和“他”分别在现实世界和平行世界中同时同地做了不同的选择, 现在他知道了现实世界中的结果,他想知道平行世界中的那个“他”的选择所带来的结果。然而,平行世界并不存在。幸运的是,反事实将告诉他另一个“他”的选择所带来的结果。
反事实计算的三个步骤:
-
溯因:利用现有的证据
确定环境 -
动作:对模型
进行修改,移除等式 中的变量并将其替换为 ,得到修正模型 -
预测:利用修正模型
和环境 计算反事实 的值。