一、敩民评论:只有那些存在关联关系的事实之间,才能进行因果论证
世界上,事物与事物之间存在着形形色色的关系,比如:按照空间位置分类、时间顺序分类、整体与局部分类的不同,我们可以总结出各种不同种类的关系;另外,还有生物学的遗传关系、数学的函数关系等等。
人类社会,随着科学和文明的发展,通过探索和总结自然界及人类社会中各类事物之间关系,在语言和逻辑的基础上建立了各种事实之间的关系,自然科学和社会科学的发展就是对这些探索和总结的证明;借助思维的力量,人们不仅对人类自身、人和人之间关系有了更多的认识,也对人与自然、社会群体与社会群体之间的关系有了越来越多的思考。
哲学意义上,事物之间或事物各要素之间存在着相互影响、相互制约、相互作用的关系,这些关系可以通过人类的思维活动被认识、被总结。在认识和总结事物之间相互关系的基础上,科学得到了发展,文明由此而进步。
事物之间的关系,有的可以被直接观察,比如空间关系、时间顺序等;有的无法被直接感知,比如微观世界的粒子运动关系;有的则是通过一定的推理论证才能体现出来,比如数学的函数关系等;有的既有空间关系也有时间关系,如电磁场理论是研究电磁场中各物理量之间的关系及其空间分布和时间变化的理论。
例如,科学家观察到,在生态系统中,不同的生物种群之间存在食物链和食物网的关系,这种关系网中的任何一个环节的改变都可能对整个系统产生影响。再比如,人们通过观测太阳、月亮和星星的运行,通过对它们行规律的总结归纳,发展出天文学这个基础学科。
事物之间的关系具有复杂性的特点。很多时候,这种复杂性让人难以置信。比如著名的“蝴蝶效应”是一个比喻性的描述:一只南美洲亚马逊河流域热带雨林中的蝴蝶,偶尔挥动了几下翅膀,可能两周后在美国德克萨斯引起一场龙卷风。最终,通过对“蝴蝶效应”的研究,产生了当今世界的神奇理论之一“混沌理论”,这个理论对因果决定论的可预测度提出了重大挑战。
现实生活中,事物之间的关系,对我们的日常生活也具有重要的意义。比如,在整理房间、收纳物品的时候,为了有效利用空间,我们需要根据物品的大小、形状来安排不同物品的空间关系;在处理复杂事情的时候,我们需要依据不同事情的轻重缓急来安排做事的时间先后顺序;人与人之间的关系则更为复杂,比如中国传统的世故人情。
总的来说,研究和探索事物的本质和事物之间的关系,是认识世界的基础。在这个基础上,我们才能更深入地认识世界。认识事物的本质、弄明白事物之间的关系,是人类主动思考的结果,也是人类思维活动的意义所在。即便逻辑学这个思维工具有着诸多的局限性,它依然是目前人们探索真相和认识事物之间关系的最好工具。
在事物之间多种多样的关系中,因果关系无疑是最重要也是最复杂的一种。虽然“混沌理论”对因果决定论的可预测度提出了重大挑战,但是在研究过程中,逻辑学这个工具依旧是必不可少的。混沌理论的研究依然是探索事物之间的复杂因果关系。
混沌理论(Chaos theory)是一种兼具质性思考与量化分析的方法,用来探讨动态系统中(如:人口移动、化学反应、气象变化、社会行为等)必须用整体、连续的而不是单一的数据关系才能加以解释和预测的行为。有人给它的定义是:混沌理论是描述动态系统模型的数学,如天气的演化等等。
混沌理论是研究和描述动态系统的数学,它解释了系统随时间变化的过程。混沌理论有三个原则:1、能量永远会遵循阻力最小的途径。2、始终存在着通常不可见的根本结构,这个结构决定阻力最小的途径。3、这种始终存在而通常不可见的根本结构,不仅可以被发现,而且可以被改变。
事实(事物)之间的相互关系,最复杂、最值得探索的就是因果关系。在面对事实之间关系的时候,我们不禁要问:它们之间有关系吗?如果有,是什么样的关系?如果没有,如何解释这种现象?如果有因果关系,如何证明?有人说他们之间有因果关系,我觉得不妥,如何评估?
什么是因果关系?因果关系特指一个(或一组)事实必然引起某种结果的有规律的内在联系。虽然两个事实(事物)之间有规律的关系是构成因果关系的关键因素,但并不意味着所有的有规律的关系都是因果关系。比如:雷雨天气时,闪电的光和雷声总是先后出现,几乎没有例外,它们之间是因果关系吗?这个问题,稍微具备初中物理知识的人都知道,闪电的光和雷声之间是没有因果关系的。
因果关系的形式
事实1与事实2之间存在有规律的能导致必然结果的内在联系。事实1这个原因导致了事实2这个必然结果,所以事实1与事实2存在因果关系,也就是说事实1一定会引起事实2的发生。事物(事件)的变化趋势,它们之间也可能存在因果关系。负相关(一个因素的增加与另一个因素的减少)也有可能意味着因果关系。如果无法证明两者之间存在“有规律的能导致必然结果的内在联系”,通常就意味着两个事实之间不存在因果关系。
因果关系需要认识四个事实
一个事件可能先于另一个事件,却没有造成它的发生;不是所有的因果关系都包含外力或必然性(这一点可能难以理解);人类事务中存在一个未知因素——自由意志;因果关系通常是复杂的。下面简单讨论上述四个事实:
“一个事件可能先于另一个事件,却没有造成它的发生”:人们观察到,先后发生的两个事件存在某种规律,有可能总是保持这种规律。但是,这种规律性并不能证明它们之间存在因果关系。比如:雷雨天气闪电的闪光和雷声总是先后发生,具备中学物理知识的人都知道它们之间是不存在因果关系的。再比如,传统医学中,有一些人吃了某种药后病好了,这并不能证明这种药的对所有的人都会有效。这时候,需要用大量案例和逻辑推理工具(双盲实验)来证明药与某种病之间存在因果关系。如果发现了反例就意味着,不存在必然的因果关系,仅仅只是某种可能性,需要更多验证。为了表示某种可能性,人们使用了统计学中的概率这个概念,用来表示因果关系中的可能性。
“不是所有的因果关系都包含外力或必然性”:前面提到因果关系的几种表现形式中,趋势的变化之间也存在因果关系,在两种趋势之间,很多时候无法用外力这个因素来描述;在有的因果关系中,外部因素表面上看非常重要,但是究其根本的话,这种外部因素对结果的发生毫无作用。在我们已经明确的一些因果关系中,有的时候,原因并没有必然引起结果发生,这种情况是很常见的。比如,在中学化学的学习中,催化剂在有些化学反应中起的作用非常大,但是催化剂对于化学反应本身而言是一种外力,有与没有,都不会影响化学反应的结果;同样,我们都知道,对于化学反应而言,如果两种参与反应的物质浓度不够,化学反应是不会发生的,但是我们不能因此而否认该化学反应的必然性。再比如,当我们生病需要抗生素的时候,通常有一个定时定量服用的要求,在其说明书中提到一个药物半衰期的概念。抗生素对于治病很有效,但是如果抗生素在人体内的浓度低了某一个数值,有可能无法杀死细菌,结果是不仅无法治病,反而会引起细菌的抗药性。半衰期的概念就是告诉人们这种药物吃下去之后在血液中从最高浓度降低到最高浓度一半需要的时间,从而确定抗生素失去杀菌效果需要的时间间隔,据此来确定再次吃药的时间。这就是定时定量这个要求的原因。
“人类事务中存在一个未知因素——自由意志”:对这句话的理解是,因为人类每一个个体都有自己的自由意志,与其本人的心理活动、思维、意识、观念等等因素密切相关;对于人类来说,世界上存在着太多的未知,很多的偶然,背后也存在着某种不为人知(人类思维无法触及)的因果关系。在这些领域,逻辑学这个工具,发挥的效果很可能是非常有限。自由意志是一个哲学概念,简单理解的意思是人的意识能够自由地选择做什么。经验地来看,我们都自然而然地认为,自由意志是每个人先天所固有的一种禀性,内在于心灵。一个人拥有自由意志,意味着他的行为是“他自身”的产物,他是他行为的主人。
“因果关系通常是复杂的”:这一点相信多数人都能理解。通过对逻辑学基础知识的学习,我们知道,一个结果的发生,往往是许多因素共同作用、相互作用的结果。如果只强调一个或几个因素的作用,有很在可能犯错误。
探索因果的相关性是所有科学的一种研究策略。尽管这种相关性可能复杂而微妙,历史经验表明,我们还是经常能找到它们。由于因果关系的复杂性,导致一个事实的发生,可能有很多原因,且主要原因也可能不止一个。最可能的情况是:多个不同的原因共同作用,导致了一个整体的最终结果。现实中,这种许多因素共同作用的复杂因果关系,是最普遍的现象。另外,“互为因果”也是可能存在的。
论证因果关系的关键
通常,两个事实(事物或事件)之间的因果关系——有规律的、引起必然结果的内在联系。评价一个因果关系的关键有三个:有规律的关系,能够导致必然的结果,内在关系可以进行解释并能够进行重复验证。
因果关系需要注意的问题
在进行因果论证或评估因果论证的时候,需要特别注意以下几点:
一是警惕过于夸大论证结论的强度。如果某个论证,表面上看已经解释了某个结果的全部原因,应当考虑的是:该论证是否有可能忽略了情况的复杂性,或者在论证过程中故意忽略或者掩盖了某些重要的因素。比如,某些药物在实验室中可以得到很好的效果,有的人就据此说明该药物具有什么神奇的疗效。通常,体外实验主要是做细胞实验,影响因素单一,只考察药物对单个细胞的作用。如果药物用于体内,人体不仅仅是一大堆细胞,而是一个复杂的综合体,受到各种因素的影响,可能还有其他因素同时作用,甚至有的时候体内的作用与体外试验完全相反。在开发新药的时候,体外试验有效的仅仅只是第一步,但是真正临床治疗的时候,绝大部分药物都会因为无效而被淘汰。比如下面的新闻,表面上证据确凿,实际上有可能完全是一个大忽悠。
同样的情况,在保健品、化妆品领域,有太多太多的例子。
二是不完整的论证有可能存在真实的因果关系。如果某个论证没有完整阐明某个结果产生的原因,并不能说明它没有发现其中真实的因果关系,因为不完整的论证,有可能忽略的是某些非重要因素,或者忽略了那些对结论影响很小的因素。如何看待马斯克说的资本不能产生剥削,权力才能剥削?
三是要重视反例。反例的出现,表明因果关系有可能是不成立的,也有可能仅仅只是一种可能性。此时,我们需要对结论进行重新评估甚至进行修正。
评价因果论证
好的因果论证应当能够让人相信:两件事之间确实存在有规律的、必然的内在关系;对于内在关系的所有解释,能够清晰明确地说明了原因如何导致了结果。判断一个因果论证是否成立,必须尽可能地找出多种解释,并从中找到最有可能的解释(一个或者多个)。不能有反例出现。比如:
请思考两个问题:1、如果集中力量办了错事怎么办?比如1958年至1960年间的大跃进运动。2、马斯克的SPACE X 公司是集中力量办大事的结果吗?
因果关系的总结
只有那些存在关联关系的事实之间,才能进行因果论证。在因果论证的时候,必须考虑一种关系可能有多种解释,这时需要做的是找出其中最重要的一个或几个解释。在面对复杂的因果关系时,不仅要找出尽可能多的因素,更重要的是找到其中的主要因素,并且对主要因素和次要因素进行充分解释和评价。如果一个因果论证全都是次要因素而忽略主要因素,这种论证是不可靠的;如果一个因果论证找到了最重要的因素,那么即使这个论证有可能忽略了某些次要因素,也是可以相信的。反例的出现,是好事而不是坏事。
二、敩民评论:事实上的因果关系不等同于法律上的因果关系
法律上的因果关系,是确定行为人在法律上是否承担法律责任的基础。在判定侵权责任时,侵权行为是造成侵害后果产生的原因,而侵权损害是侵权行为造成的结果,就可以认定为存在事实上的因果关系。
事实上的因果关系不等同于法律上的因果关系。法律上的因果关系是按照法律的标准从复杂的因果关系中抽取的、具有典型意义的内容。刑法的因果关系与民法的因果关系也不尽相同,前者更为复杂。
事实上的因果关系,是指撇开其他一切因素的考虑,单纯依据事实真相去推理行为人的行为或其物件与受害人所受到的损害是否存在因果联系。事实上的因果关系只涉及客观事实的真相和逻辑推理,从客观事实之间的关联关系来分析并归纳推理出导致损害结果产生的原因和范围。
法律上的因果关系,是在事实的因果关系基础上增加一定的限制因素,这个限制因素通常是“相当性”判断:根据法律、日常生活常识或经验判断,如果结果的发生具有“相当性”(相当性的含义是此原因通常导致此结果)而非出于偶然,那么就应当承认因果关系的存在;反之,如果从法律、日常生活常识或经验判断结果属于一种“偶然性”而不是“相当性”,则应当否认其存在因果关系。只有这样,才能保证不会造成因为行为人的行为而承担过度的或不应当承担的赔偿责任。
比如:电视节目播放的恐怖电影造成了某人的血压升高导致脑溢血死亡,其家属起诉电视台或电影制片人,显然是一种荒唐行为。在实际生活中,因行为人的行为造成损害的案件在法庭审理时通常有点棘手。实际案件:南通老人超市猝死案。
【案情回顾】2020年6月13日,67岁的谷某在超市购物时,口袋里放了两个鸡蛋未结账便欲离开,超市店员将其拦下询问,交涉未果,老人突然倒地猝死。谷某的家属认为,超市应对老人死亡承担责任,向崇川法院起诉,要求超市赔偿38万余元。崇川法院审理认为,超市工作人员的行为属于自助行为,是权利人对合法权利的自我保护,一审遂驳回原告所有诉求。谷某家属不服一审判决,向南通中院提起上诉。2021年3月25日,经过庭审,南通中院做出判决,维持一审原判,驳回原告所有诉求。
【案例焦点】劝阻行为与损害后果之间是否具有因果关系。
【法庭判决】二审判决指出,虽然超市员工的劝阻可能诱发老人情绪波动而突然倒地,但事实上的因果关系有别于法律上的因果关系。法院结合案件事实认为,超市员工的劝阻方式、内容和时长均在合理限度内。故从社会一般观念来看,该行为通常并不会造成老人突发疾病倒地。
【案例分析】超市员工对老人的劝阻行为与老人心梗猝死之间,是否具有因果关系?这一点应当依照法律上因果关系的要求而判断。
法律上的因果关系并非事实上的因果关系,应当在事实上的因果关系基础上,加以“相当性”的判断。在本案中,若无超市员工的劝阻行为,应当认为不会有老人情绪激动发生猝死的后果,故可以认为劝阻行为与损害后果之间具有“事实上的因果关系”。
法律上的因果关系上还需要进行“相当性”判断的确认,即若有行为人之行为,通常情况下会发生此种损害。“相当性”判断的主体标准是具有常规智力、知识和经验的一般理性普通自然人,而非特定领域的专业人士(如医生甚至心外科医生),以免不当拔高损害赔偿的可能性。
本案中,超市员工的劝阻行为,由社会上的普通人依据日常生活常识或经验判断,通常不会导致老人心梗猝死。因此,应当认为超市员工的劝阻行为与老人的死亡后果之间不具有“相当性”,也就不具备法律上的因果关系。
【案件意义】本案一审、二审法院在查明事实真相的基础上,排除了传统观念(“死人为大”“损失分担”等)的影响,准确适用法律,维护了法律的公正和社会的正义,对类似案件的处理有很好的示范作用。
二审判决书指出:“当前社会风险和损害无处不在,侵权责任法不能给所有的损害提供救济。侵权责任法须权衡和协调两种基本价值:保护合法权益和维护行为自由。相对于特定的受害人而言,行为自由关乎每个人的利益。只有法律保护每个人不被任意地要求承担责任时,才能避免动辄得咎,民事主体的行为自由才能得到充分保护,民事主体的人格才能全面发展。当损害发生后,如果不具有法律规定的理由,受害人不能随意要求他人承担责任,不能将自身应承担的风险转嫁他人承担。”
该段文字应当给予点赞,特别是最后一句:“当损害发生后,如果不具有法律规定的理由,受害人不能随意要求他人承担责任,不能将自身应承担的风险转嫁他人承担。”以往我国民事司法实践中,经常发生由于某种为了安抚或基于同情等因素,过度注重受害者权益保护,而忽略侵权人具有自助行为自由的权利,其典型表现之一就是在案件的审理和判决时,对公平责任或公平分担损失规则的滥用,从而达到息事宁人、平息舆论的目的。
三、敩民评论:因果关系与相关性,盲法试验是目前探索复杂因果关系原则的最佳方法
现实中的普遍存在的是复杂因果关系:多种因素共同作用导致了一个整体的结果,且其中的主要原因可能不止一个。多数自然科学研究中,可以直接证明的因果关系,除了数学学科的证明关系和化学学科的化学反应之外,通常都会发现存在很多的其他不确定因素。在社会科学领域,更是如此。
讨论因果关系,需要使用到统计学的相关性概念(关于统计学的相关性,笔者将根据自己的学习心得,稍后进行整理)。探索因果关系中的相关性是所有自然科学和社会科学领域进行研究时采用的非常有效的一种策略。相关性描述的是两个事实之间互相影响(关联)的程度。
相关性并不能代表因果关系,它只是描述了两个事实之间的影响(关联)程度。比如古人通过观察发现,“燕子低飞”的时候,往往不久就会下雨。那么“燕子低飞”与“下雨”之间就是一种相关性,而不是因果关系。因果关系描述的是一个事实导致另一个事实发生的必然关系。证明因果关系存在,要求满足三个条件:相关性、时间顺序和排除其他可能的解释。
相关性只是因果关系的一个前提(先决)条件,它表明两个事实之间存在某种关系;时间顺序要求原因事件发生在结果事件之前;排除其他可能的解释要求排除其他可能导致结果事件发生或者对结果有影响的因素。相关性不一定存在因果关系;因果关系一定存在相关性。比如:在治病的时候,药物治疗要求的是因果关系(至少是强相关的关系),才能叫对症下药。如果无法证明存在因果关系或强相关关系,就无法说明药物的治疗效果。
数学证明要求的也是因果关系。比如,中学数学中的几何证明。虽然相关性不等于因果关系,近年来随着知识图谱的发展,发现事实之间蕴藏的因果关系则更为迫切。
如何讨论复杂因果关系?讨论复杂因果关系的原则如下:
如果怀疑某一特定的因素(被怀疑的原因)对结果会产生影响,那么:首先,寻找可能由于受到该因素影响而导致结果会发生的变化,此时暂不考虑其他因素变化与否。其次,在排除被怀疑因素后,观察结果是否发生了相应的变化,从而核实被怀疑的因素对结果的影响是否与预期相同。最后,按照上述步骤寻找更多的被怀疑因素。如果怀疑对结果产生的影响是由其他潜在的原因引起(被怀疑之外的原因),必须确保在解释了其他潜在原因之后,这种影响依然存在。如果可能,需要通过设计一个实验来研究并测试被怀疑的原因。
注:由于道德原因,实验不能够模拟的话,可以考虑用动物、细胞培养物或计算机模型进行实验。比如新药研发出来后,首先要做的就是动物试验;在经济学领域,通常使用数学模型进行模拟。
例:药物试验中的“随机双盲试验”就是按照上述原则进行的。下面简单介绍一下药物试验中的盲法试验(单盲试验、双盲试验、三盲试验)及非盲法评定。
一、盲法试验:盲法试验的基本原则就是让病人和/或研究人员(医生)不知道哪些人服用药物,哪些人服用安慰剂。在临床药物研究中,往往涉及病人、医生、研究人员(结果统计、分析)等,根据三者知情情况的不同,一般将盲法试验分为单盲、双盲、三盲3种类型。盲法试验的目的就是排除检验药物治疗效果过程中的干扰因素,如病人的心理因素、安慰剂效应等主观因素,从而得到可靠的结果。
(一)单盲试验:对于病人的分组(药物组、安慰剂组等)及服用药物情况,医生和研究人员知道,而病人只知道自己服用了药物,而不知道是真的药物还是安慰剂,叫做“单盲试验”。
(二)双盲试验:病人和医生(包护士等直接接触病人的人员)都不知道分组情况,也不知道是否服用药物、安慰剂等。双盲试验往往用于临床随机对照试验之中,如果配合其他屏蔽信息的措施,更能增强研究的科学性。
双盲试验过程中,需要有“局外人” 进行管理、监督,他们不直接参加临床研究的观测和数据收集,仅参与研究设计、药物编码的控制与保密、资料的保管、分析等,而病人和医生(包括其他直接接触病人的人员)只知道每个病人服用的药物编号。直到试验结束并完成数据分析后,才能知道最终结果(“揭盲”)。双盲试验要求不同分组的病人服用的药物在外观形状、大小、颜色,给药的途径、方法、次数上保持严格一致。
双盲试验过程中,一旦某一病人的病情突然发生变化,如出现严重的副作用、治疗无效或病情加重等,不应该为追求资料的完整性而继续试验,必须立即停止试验,并同时使用必要的治疗措施。
(三)三盲试验:三盲试验是指病人、医生和试验分析人员三者都不知道病人服用的是药物还是安慰剂等,全部编号密封,从而避免双盲法在资料分析阶段的测量偏倚差。
二、非盲法评定:非盲法评定,又称为开放试验,病人和医生都知道试验组和对照组的分组情况,以及服用的药物情况。并非所有临床医学研究都适用盲法,例如,比较手术疗法和保守疗法治疗某病的效果,探讨功能训练或针灸疗法的疗效,评定生活习惯(吸烟、运动、饮食)对疾病的影响等。
非盲法评定的适用范围:在一次研究中,需要对多种因素进行分析。如不仅希望观察药物的疗效,同时也要评价影响疗效或发病的有关因素。研究者希望更安全、更周到地作出决策(例如患者是否需要继续治疗,药物是否需要增减,是否需要配合其他药物等),使医疗决策更灵活。
最后简单说说大样本随机双盲对照试验:大样本随机双盲对照试验是随着统计学研究的发展,样本数量大小多少这个影响对照试验结果的因素也被注意到了。为了彻底完善对照试验,注重样本数量代表性的新对照试验方案就产生了。这就是大样本随机抽样双盲对照试验。提醒:所有回家熬煮的中药汤连非盲法评定都没有做过。绝大多数的中成药都没有经过任何盲法试验。所有的化学合成药物都必须通过双盲试验才能上市。
关于中成药向FDA申请双盲试验的小知识:在1996年,国家科委(现科技部)提出了“敲开FDA大门”的口号。1999年,科技部通过公开征集遴选,从我们博大精深的中医药宝库中,精心挑选了复方丹参滴丸、双黄连片、桂枝茯苓丸、七叶皂甙等7个中成药,奔赴美国,向FDA提出申报。值得一提的是,国家科委给每个品种补贴30万元左右,这在当时可不是一个小数目。
到目前为止,国内共有10款中成药向FDA提出了申请。包括:天士力制药集团股份有限公司的复方丹参滴丸;和记黄埔医药有限公司的HMPL-004(穿心莲制剂);北京北大维信生物科技有限公司的血脂康胶囊;上海现代中医药股份有限公司的扶正化瘀片;江苏康缘药业股份有限公司的桂枝茯苓胶囊;上海杏灵科技药业股份有限公司杏灵颗粒;华颐药业有限公司的威麦宁胶囊;浙江康莱特药业有限公司的康莱特注射液和康莱特软胶囊(两款药物);以岭药业股份有限公司连花清瘟胶囊。截至目前,通过FDA双盲试验的中成药数量为零。
四、敩民评论:真实数据与错误归因,将分组数据进行简单汇总,有时候并不能反映真实情况
在探索事物之间因果关系的时候,常常使用归纳法进行论证。在使用归纳论证的时候,经常会遇到的情况:需要从大量的事例中总结出来一个结论,而事例的数量又特别的庞大。面对这种情况,需要遵循一定的规则:个例不证(孤例不证)、举例需要有代表性、重视背景概率的影响、慎重对待统计数字等等。
这些规则,和统计学这门学科有密切的关系。另外,因果关系的表现形式中,事物的变化趋势之间也存在因果关系,而这种因果关系的论证,也要使用到统计学,特别是统计学中的相关性研究。
统计学的定义:统计学是通过搜索、整理、分析数据等手段,以达到推断所研究对象的本质,甚至预测研究对象未来发展趋势的一门综合性科学。统计学用到了大量的数学及其它学科的专业知识,它的使用范围几乎覆盖了社会科学和自然科学的各个领域。
相关性的定义:相关性描述的是两个变量之间互相影响(关联)的程度。
相关的类型:正相关:两个变量同时增加(或减小)。负相关:两个变量变化的趋势相反,一个变量增加而另一个变量减小。不相关:两个变量间没有明显的(线性)关系。线性关系:两个变量有关联,但是以散点图呈现的相关关系不是直线形状。
相关的可能解释:相关是偶然的。两个相关变量可能直接受到一些潜在因素的影响。一个变量是另一个变量的原因。要注意的是,即便如此,它也许只是众多原因中的一个。
统计学意义上的因果关系与相关性有区别也有共性
区别:因果关系是指一个变量引起另一个变量的变化,意思是前一个变量(原因)直接导致了后一个变量(结果)。因果关系通常表现为原因和结果之间的因果链条,其中一个变量是另一个变量的原因。相关性是指两个或多个变量之间的统计关系,表明它们在某种程度上一起变化。相关性并不一定表示因果关系。变量之间可能具有相关性,但并非必然有因果关系。相关性仅仅描述了变量之间的关联程度。
共性:它们都涉及多个变量之间的关系。无论是因果关系还是相关性,都涉及到多个变量之间的相互作用和影响。在数据分析中,研究因果关系和相关性都可以帮助理解数据之间的关系,从而更好地理解一个系统或某个现象所发生的各种变化。无论是寻找原因与结果之间的关系,还是了解变量之间的相互影响,都对以数据为基础的分析和预测非常有用。
大数据时代,寻找数据之间的因果关系尤为重要。复旦大学的肖仰华教授说:“万事万物都处在一个复杂的因果网络中,当前的大数据多是业务结果数据,缺乏产生这些数据背景因果,导致大家知其然,不知其所以然,所以要补全缺失的因果链条。”
大数据的经典案例之一是“啤酒和尿布”的故事:沃尔玛超市通过大量的数据,通过购物篮分析发现,买啤酒的人也买尿布,于是在货物架上,把两者放一块了,结果大大提升了销售额。啤酒销量和尿布销量之间显然不存在任何的因果关系。
在现实社会中,因为统计数据而导致对因果关系判断错误的例子非常多,比如著名的“统计学谬误-辛普森悖论”。辛普森悖论是英国统计学家E.H.辛普森于1951年提出的悖论,即在某个条件下的两组数据,分别讨论时都会满足某种趋势,可是一旦合并考虑,却可能导致相反的结论。
美国一所大学的两个学院,分别是商学院和法学院。新学期招生,人们怀疑这两个学院有性别歧视。两个学院的招生统计数据汇总如下:
上面的数据显示:女生录取率是56.5%,男生录取率是68.8%,女生录取率比男生低。难道说这个大学存在性别歧视?下面,我们再看一下两个学院分别的数据。
法学院的录取数据:
商学院的录取数据:
好奇怪,两个学院女生的录取率都比男生多,哪来的性别歧视?
原因分析
一、录取率存在差距:法学院录取率低,商学院录取率高。
二、不同性别申请者数量与录取率相反:女生大多申请法学院,男性大多申请商学院。
三、拒收数量的差别:拒收率高的法学院拒收了许多女生 (101人) ,虽然男生拒收率比女生高,但是男生被拒收的数量 (45人) 相对不算多;同时,由于商学院录取率高,使得男生被录取的数量比较多。因此最后的汇总结果,男生总的录取率比较高。
四、其他潜在因素的影响:性别肯定不是影响录取率的唯一因素,甚至有可能对录取率毫无影响。也许还有其他因素,如入学成绩、教育背景等。但是统计数据却导致了性别方面的误导。
这个例子告诉我们:将分组数据进行简单汇总,有时候不能反映真实情况。如果以此为根据得出某种因果关系的结论,肯定是不可靠的。从以上例子能看出,数据本身并没有撒谎,如何从数据中挖掘出正确的信息才是关键。
分析数据时,我们关注数据的相关性是不够的,从里面得到事实之间的因果联系更为重要;由于因果关系的复杂性,统计数据之间的相关性并不能说明具有因果关系,有时候,真正的因果关系仅仅从统计数据看,相关性并不明显。