摘要:针对医学科技论文中常见统计学问题以及稿件退修和编辑加工过程中遇到的共性的统计学问题进行分析,并提出可能避免统计学方面错误的方法及建议,便于科研人员撰写论文时学习借鉴,也为医学期刊编辑处理类似稿件提供参考。
关键词:统计学;医学;科研;论文;问题
医学统计学是现代医学研究的重要方法和技术手段,是医学科研论文中不可或缺的部分,其应用水平直接影响科研成果的质量[1]。医学科研人员在撰写论文时若未能仔细钻研流行病学和卫生统计学等专业知识,或未咨询专业统计学研究人员,盲目套用统计学方法,往往会造成应用统计学方法及处理数据时出现错误,如变量选择和纳入、模型选择、结果描述等错用情况发生。在医学研究设计、数据收集、数据整理、结果解释和表达等环节均有可能存在统计学应用不当的问题[2‐5]。就已发表的医学科技论文来看,研究设计环节中存在的问题在审稿时比较容易被识别,且大部分存在科研设计缺陷的论文在审稿阶段已滤除,而运用统计学方法分析资料,应用统计学软件实现数据管理和分析,正确解释和表达统计分析结果等问题则往往比较隐蔽,这部分问题在进入编辑修稿阶段才显现。编辑修稿阶段是论文出版前的最后质量控制环节,编辑对论文统计学问题的审核把关起着至关重要的作用,因此,需要期刊编辑具有过硬的专业知识、严谨的治学态度及高度的责任心处理遗留错误,特别是有些疑难问题往往需要专业统计学人员介入进行判断。已有调查显示,1990年—2003年发表在NEnglJMed、JAMA和Lancet三大顶尖医学杂志上且引用次数超过1000次的文献中,有近1/3的文献存在统计学问题[6‐7]。可见统计学误用、错用问题在医学期刊中相对较多。因此,对于医学期刊社而言,强调在论文审稿阶段邀请统计专业审稿专家进行统计方面把关十分重要。现就医学论文中常见的统计学问题及可能的避免方法分析如下,以飨同道共勉。
1描述性分析时存在的统计学问题
定量资料中的连续性资料一般采用集中趋势加离散趋势形式描述,例如均数±标准差(x±s)及中位数(四分位数间距)。目前,绝大部分文献统计描述都以均数±标准差形式进行,研究者往往未检验所研究指标数据的正态性,而理所应当地将数据以正态方式进行呈现,忽略了非正态分布数据应当采用中位数(四分位数间距)的形式来描述比较妥当,这样的错误使用可能会让读者对数据总体分布造成错误判断。此外,某些研究中研究者会采用均数±标准误进行统计描述。一方面,可能是因为研究者对标准误和标准差的具体含义辨识不准确,样本标准差是用来描述正态分布数据离散程度的统计量,是将方差开平方即得到的标准差;而样本标准误是指样本均数的标准差,是一个统计推断的指标,用于将统计量推断到总体参数。另一方面,由于样本标准误一般比标准差小,出于使研究结果看上去更具优势考虑,研究者会使用标准误代替标准差。
2统计分析方法不满足假设条件
2.1不满足参数检验的数据采用了参数检验方法
2.1.1不满足正态性在进行两组或多组定量资料参数检验时,相比于独立性和方差齐性,数据正态性往往容易被忽视。首先需注意,独立样本t检验或方差分析对正态分布的要求有一定耐性。如果原数据或经变换后数据不是严重地偏离正态分布,且样本量比较大,仍可以采用参数检验方法。但如果原数据或经变换后数据偏态严重,且样本量不大,不建议使用参数检验方法,推荐采用非参数检验对数据进行统计分析。但当样本量很大时(如>200),即使呈两点分布或指数分布,其样本t统计量也近似服从正态分布[8]。在这种情况下,选用参数检验或非参数检验均可。2.1.2重复测量数据对于重复测量数据的分析方法,大部分科研工作者首先想到的是重复测量方差分析[9],其具有结果呈现形式简单、易于解释的优点,但其前提条件相对较多且通常不易满足。比如需要平衡数据,这就要求所有观测不能有缺失值,否则相应的观测对象需要被删除。此外,重复测量方差分析还要求相应变量之间的等相关性以及资料的球形对称性(可以理解为复杂情况下的方差齐性),若这些条件不满足,参数检验的方法将不再适用,只能采用边际多层模型或线性混合模型等进行分析。
2.2不满足卡方检验条件的数据采用了卡方检验
两独立样本四格表资料的卡方检验要求总例数n≥40且理论频数T≥5[10]。若n≥40,且T为1~<5,采用连续校正的卡方或Fisher精确概率法进行检验;若n<40或T<1,则采用Fisher精确概率法进行检验。配对四格表资料卡方检验要求不一致对子b+c≥40,否则采用校正卡方检验。R×C表资料卡方检验中要求不宜有1/5以上的格子T<5,不宜有格子T<1,否则需采用Fisher精确概率法进行统计分析。
2.3不满足线性回归条件的数据采用了线性回归分析
线性回归模型的前提条件包括线性、独立性、正态性和方差齐性。其中,线性是指因变量的总体平均值与自变量呈线性关系。可以通过绘制散点图判断回归关系是否成立[11]。独立性是指任意2条记录互相独立。正态性是指模型的误差项需服从正态分布(等价于当自变量X为定值时因变量Y也呈正态分布),而在样本量较大时可以忽略正态性要求。方差齐性是指在自变量X的取值范围内,不论X取什么值,Y都具有相同的方差,等价于残差的方差齐性。需要注意的是,线性、正态性和方差齐性通常通过绘制散点图或正态概率图等即可快速判断,但独立性往往容易被研究人员忽视,即纳入分析的研究对象不应有多条记录,如果有部分研究对象有多条记录,则应只保留一条记录,否则不能采用线性回归模型进行分析,只能改用混合效应模型进行分析。同时,还需注意,如果是多因素回归分析,则上述线性、正态性和方差齐性的条件应在各变量和因变量之间均得以满足。
3结果阐释时存在的问题
3.1受制于P值,未按常用界值对数据进行划分
在进行多元回归分析之前,比较可取的是先进行单因素回归分析。如某单因素为连续型变量,且已知其为结局变量的危险因素可能性较大,若将其直接纳入模型进行单因素回归分析,则可能发现其回归系数β无统计学意义(P>0.05),这时某些研究者可能会采用将连续型变量分类的方式以获得较好结果,可能为得到较小的P值而未采用常用的有意义界值进行划分,如在研究血压对某种慢性病的影响时,未按照临床定义的高血压界定值对血压值进行分类,而是以在数据分析时获得最小P值为目标取最佳截断值进行分析,这种方法会使结果产生较大偏倚。因此,在实际运用时应尽量按照临床上常用分类标准对连续型变量进行分类。
3.2对没有统计学意义的结果进行过分阐释
医学研究中常常会获得P>0.05的结果,此时若以α=0.05为检验水准则表示结果不能拒绝H0假设,但也不能下结论说H0成立[12]。如研究某因素与阿尔兹海默病间的关系时,通过多因素回归分析发现回归系数的P>0.05,此时可以认为这个回归结果不具有统计学意义,但在结果讨论中不能以此下结论认为该因素与阿尔兹海默病无关,甚至以此来推翻之前的研究结论。因为在假设检验中,利用反证法思想是以假设H0成立来进行推导,若能推导出原假设不成立的结果,则可以推翻原假设而证明H1成立,但如果推导出H0成立,则并不能做出任何判断,只能说明以目前结果尚不能拒绝H0,而后应该思考是否是因为实验样本量不够或是统计效能不够,以在将来进行进一步探究。
3.3有统计学意义的结果不一定有实际临床意义
临床实践中,两组或多组差异有统计学意义不一定说明差异具有临床意义,判断是否具有实际临床意义需要结合研究背景和相关临床专业知识[13]。最经典的例子是研究某种降压药的降压效果。临床上一般认为要使血压降低10mmHg(1mmHg=0.133kPa)以上才能认为具有临床意义,而如果研究样本量较大,即使试验组和对照组间血压相差不到10mmHg,也非常有可能得到P<0.05的结果,从而得出该药具有好的临床应用价值这一不正确结论。再如,临床研究较重视病人生活质量评价,尤其对心理状况进行评价时一般采用相关量表进行测评,对量表测评结果进行统计学分析时得出有统计学意义(P<0.05),在分析时直接推断出某干预方法比另一种方法更有效,而未考虑研究对象干预前水平,可能造成研究结论科学性不足。因此,在进行相关疗效评价时,不能仅依据结果是否有统计学意义,生物学意义才是最重要的。
3.4在不直接进行比较的情况下判断两组治疗效果
优劣干预在试验条件或试验组中产生了显著效果,而相应的效果在对照条件或对照组中不显著,研究人员有时会提出试验组效果比对照组效果要好[14]。这种错误推断很常见。如观察A药和B药的治疗效果,采用自身前后配对设计,得到的结果是A药治疗前后配对t检验差异有统计学意义(P<0.05),而B药治疗前后差异没有统计学意义(P>0.05)。此时,只能下“A药在其受试者中观察到显著药效,而B药在其受试者中未观察到显著药效”的结论,但不能就此认为A药治疗效果优于B药。要了解两组治疗效果的差异,需要按非配对t检验对两组进行直接比较。另外,还有一种情况,即在进行多组均值或率的比较时,如果已知A组效应优于B组(P<0.05),而B组效应和C组效应差异无统计学意义(P>0.05),此时不能按照数学逻辑进行推导,得出“A组效应同样优于C组”的错误结论。正确做法应当是将A组和C组直接进行比较。
4可能避免统计学错误的方法及建议
4.1根据研究目的选择适宜的统计分析方法
统计学方法的运用需要考虑其前提条件[15‐16]。若在实际应用过程中忽视了这些条件,所得出的结果往往可能也是错误的。所以在应用模型及检验方法时需要特别注意其应用条件。参数检验及大部分模型多要求正态性及独立性[17]。在应用前需对数据进行正态性检验,若不满足正态性,可以考虑通过对数转换、平方根转换及平方根反正弦变换等方法使数据转换成正态以满足应用条件。若无法转换为正态性数据则可采用秩转换的非参数检验方法。而在卡方检验中,若不满足适用条件可考虑采用合适的合并方法[18]。
4.2切勿过分受制于P值P值是最常用的统计指标
[19‐20],科研设计通常会利用P值得出结论,但若过分关注P值,依据P值处理数据或进行相关结果解释,有时会得出不恰当或错误结论。P值小于既定检验水准不等同于该项结果就具有临床或者实际意义。同理,P值大于检验水准也并不能说明该项结果无效。在实际数据分析及结果解释时应客观分析而不是受制于P值,目前,越来越多地提倡用效应值加95%置信区间来表达结果[20],这样既能进行结果比较,也可以观察到是否具有临床实际指导意义。
4.3科学地解释统计结果
不同研究设计类型要求的统计方法不同,结果解释存在一定差异,这是一个在实际工作中常被忽略但却至关重要的问题。首先,需正确理解假设检验结果。“差异有统计学意义”并不意味着在医学专业上就是“重要”的。相关系数的假设检验只能说明相关关系是否有统计学意义,既不能说明相关关系是否密切,也不能说明相关关系是否具有医学专业上的某种意义。其次,需正确解释不同研究类型数据分析结果。观察性研究本身已经决定了研究结论的局限性;实验性研究能够较好地控制各种混杂因素,对于严谨设计的实验性研究,结论通常较为可靠,但要注意临床试验对象是人时,存在诸多心理(如安慰剂效应和霍桑效应)以及伦理问题的局限,下结论时需特别谨慎。最后,需正确解释不同单位数据分析结果。对于研究对象基于学校、单位或地区等水平的汇总数据所进行的分析,如果在个人水平上下结论,就需特别严谨,注意因果推论时的逻辑性和正确性。
5小结