医学论文统计设计分析

　　摘要:本文应用系统聚类方法,对医学中常用的统计设计方案按其使用情况进行分类,通过对类间的分析与比较,找出存在的问题,综合评价三年医学统计设计方案的不足与可取之处,通过对医学常用的统计设计方案进行聚类,以便引起有关人员应该对哪些统计设计方案更加重视,从而为提高期刊中医学论文的质量提供一点建议,对如何改进并提高医学论文统计设计方案提供一点参考价值。

　　关键词:医学论文;统计设计方案;聚类分析

　　1前言

　　在定量资料的假设检验中,误用统计方法最常见的原因是忽视资料所对应的设计类型[2]。医学统计设计是进行临床医学实验的重要前提,只有一个好的统计设计,才能使实验用比较经济的人力、物力和时间得到一个准确、可靠、重现性好的结果。而要得到一个好的统计设计,必须严格遵循统计设计的4个原则:对照、均衡、随机化、重复的原则,然后制定一个合理的统计设计方案[3],它直接影响到医学期刊质量高低,目前国内外对医学统计设计方案的研究只是针对某个设计类型应用方法进行分析,而对医学中统计设计方案的使用质量并未系统地进行分析。为此,本文采用样品聚类方法,对医学中常用的9种统计设计方案进行分析,通过类内与类间的比较,找出其中存在的问题,对改进研究设计提供一点参考价值。

　　2材料与方法

　　从河北省图书馆和河北医科大学图书馆藏书中,用单纯随机抽样的方法抽取2000年、2001年和2002年期刊刊登的需要进行统计设计的临床医学研究、基础医学研究文章657篇,其样本量用率的抽样方法进行计算,公式如下[4]:

　　n--所需样本量大小。

　　本次调查α=0.05,则μ0.05=1.96;δ为容许误差(即所希望检出的差值)。本次调查根据以往的经验δ取0.04;预调查了100篇文章,其中48篇文章的统计设计方案存在不足之处,故本次调查p取值为0.5;为了剔除与本研究无关的文章,本文抽取了1000篇基础研究与临床研究中的医学论文,最后剔除了非本文研究的设计类型343篇,剩余657篇,所以有效样本量为657篇,满足了本文需要的601篇文章。

　　3统计方法

　　2.1指标的确定及其赋值

　　本次调查的样品为医学中常用的统计设计类型(成组设计、配对设计、随机区组设计、交叉设计、拉丁方设计、析因设计、正交设计、重复测量设计和序贯设计),统计设计方案的指标依次为无、不正确、不明确和正确[5-7],其数据结果用百分比表示[8],本次调查的统计设计方案主要从以下几方面进行判断:与实验目的是否相符;处理因素的水平数;区组因素的个数;处理因素间有无交互作用;非处理因素的均衡情况。无:指文章中没有统计设计过程,没有遵循统计设计的四个原则;不正确:指论文中写明了统计设计方案但与上述任一方面不符者;不明确:指论文中没有写明具体的统计设计方案名称,仅是对受试对象进行了随机分配并分组,无法判断的;正确:指论文中写明了统计设计方案的具体名称,且全部条件都符合的。无、不正确、不明确和正确分别赋值为1、2、3和4。

　　2.2 Q型系统聚类

　　本次调查采用系统聚类法,聚类统计量用欧氏距离,类与类的距离定义为类平均法,数据处理用SAS8.0,在样本聚类分析中,两个样本之间的距离越小,说明两个样本的性质越相似。类间距离是用来度量一个类(一组样本)与另一个类(另一组样本)之间距离的统计量。令类A中有a个样本,类B中有b个样本,D(i,j)为A中的第i个样本与类B中的第j个样本之间的距离,则称D(i,j)为类A和类B中一对样本之间的距离,i=1,2,…,a;j=1,2,…,b。假设D(A,B)为类A和类B之间的距离,本次调查的类平均法,其类间距离等于两类中所有样本对之间距离的平均值,即D(A,B)={sumD(i,j)}/(ab),在样本聚类分析中两个类的类间距离越大,则两个类的类内所有样本的性质越不相似;反之,两个类的类间距离越小,则两个类的类内所有样本的性质越相似。系统聚类的基本思想是先把n个聚类样本看成n类,然后按类间距离将相似程度最大的两个类合并为一类,再将所有的类(包括新类)中相似程度最大的两个类合并为一类,重复此过程,直至所有类间距离达到一定的要求为止,或直至所有n个样本被合并成一类为止,然后根据类间距离的要求以及实际意义选择一个适当的分类。把医学常用的统计设计方案进行聚类后,可以进一步对类间及类内进行系统分析,以便找出问题所在,提醒有关人员应该对哪些统计设计方案更加重视。

　　2.3三年之间的比较

　　三年的论文使用情况在3类的构成比的比较用χ2检验,两两比较的检验水准用校正的α′,其计算公式如上,统计处理用CS2000统计软件。

　　4一致性检验

　　一致性的检验或盲评法复审是质量控制的重要方法,本次调查采用一致检验,它可以评价本次样品分析结果的可靠性。其评价指标用kappa值来表示,其公式如下:

　　所有被评阅的文章均由作者按统一的评价标准进行评阅,并经另一专业人士复查,如遇意见不一致之处,由两人共同讨论分析,以求获得一致的结论。两人对657篇文章的设计方案的评阅一致率为95.74%(结果见Table 1),Kappa值=0.9227,两人对657篇论文的判断存在一致性(u=35.1507,p<0.05),可见本次所调查的657篇文章结果是可靠的,数据处理过程使用CS2000统计软件。

　　阅读期刊：《统计与信息论坛》

　　1996--2006年，《统计与信息论坛》连续4次荣获陕西省优秀期刊荣誉;1999--2006年，连续3次荣获“全国优秀社科期刊”称号;2008年进入“中文社会科学引文索引(CSSCI)来源期刊”阵容，2009年再次入选;2008年入选中国社会科学院“中国人文社会科学核心期刊”，同时入选中国学术期刊评价委员会暨武汉大学中国科学评价中心“RCCSE中国核心期刊”。