数据出版影响科研不端行为的实证研究*
——以问卷调查数据处理过程为例
2018-06-26盛艳燕
□文│盛艳燕
科研不端行为是指在研究和学术领域内的各种编造、作假、剽窃和其他违背科学共同体公认道德的行为,以及滥用和骗取科研资源等科研活动过程中违背社会道德的行为。[1]科研不端行为可能发生在不同科研活动中,其具体的表现形式丰富多样,[2]现有研究归纳了多种科研不端行为,对问卷调查处理中的科研不端行为关注较少。作为一种重要的科研方法,问卷调查被广泛应用于各种科研领域,众多研究结论来源于问卷调查数据的支持。[3]问卷调查数据的处理过程包括问卷调查数据的获得、整理、分析、汇报等过程,如果在问卷调查数据处理过程中发生科研不端行为,这将严重影响研究结论的科学性。
关于如何预防和减少问卷调查数据处理过程中的科研不端行为,研究者认为应该积极采取多种措施,包括汇报问卷调查数据的处理过程、提交原始数据进行验证、同行评议、数据出版等,[4]而数据出版被认为是抑制科研不端行为的有效措施。[5]但是,现有研究仅仅从理论上分析了数据出版抑制科研不端行为的可能性,缺乏相应的证据支持。那么,数据出版是否能有效抑制问卷调查数据处理中的科研不端行为呢?本文提炼了问卷调查处理过程中的科研不端行为,实证检验了数据出版对问卷调查数据处理中的科研不端行为的影响,为推动数据出版在问卷调查中的科研不端行为治理中的应用提供证据支持。
一、研究思路和方法
为了确定数据出版是否影响问卷调查数据处理中的科研不端行为,首先必须明确问卷调查数据处理中科研不端行为的具体内容。由于暂未发现专门针对问卷调查数据处理中科研不端行为的问卷,所以本文遵循标准化的问卷开发程序编制了《问卷调查中科研不端行为》问卷,作为整个问卷的一部分。
由于基于问卷调查的研究者往往不需要出版数据,如果他们的科研不端行为在要求数据出版的条件下有显著区别,说明数据出版对问卷调查中科研不端行为有显著影响。因此,根据《问卷调查中科研不端行为》问卷对应编制了《数据出版对问卷调查中科研不端行为的影响》问卷,作为整个问卷的一部分。
为了方便调研,将个人基本情况作为第一部分,包括性别、年龄、学历、地区、身份等。将《问卷调查中科研不端行为》问卷作为第二部分,将《数据出版对问卷调查中科研不端行为的影响》问卷作为第三部分。调研收集数据后,通过比较两组数据是否存在显著差异,来说明数据出版是否对问卷调查数据处理中科研不端行为有显著影响。
二、问卷编制
按照拟定的研究思路,编制问卷首先要确定科研不端行为的内容。一般采用访谈法和内容分析法提炼题项,编制成初始问卷后采取探索性因子分析法和验证性因子分析法确定其内容及构成,最后确定正式问卷。
(一)访谈设计
先从现有文献中归纳与问卷调查数据处理有关的科研不端行为,再选择有多次问卷调查经验的10名教师和10名博士研究生进行访谈并录音。访谈的问题有:您做过问卷调查吗,做过几次?最近一次问卷调查是什么时候,您是如何选择问卷调查对象的,您与调查对象是如何接触的?获得的调查数据符合您的预期吗,您是怎么处理这些数据的?您从数据中得到的结论会全部汇报出来吗,哪些汇报而哪些不汇报呢?
(二)编码分析与初始问卷编制
将访谈的内容转化成文字,再采用内容分析法进行编码分析。编码分析的方法是先按词语进行编码,再将词语按属性进行分类,再按逻辑关系排列。合并意思相同的编码后,由两名从事过科研不端行为研究的教师对编码内容的合理性和逻辑关系的合理性进行分析,经过反复的修改,最终得到56个编码。
将编码的内容按逻辑关系进行组合,再用第一人称的行为描述语句表达出来,共获得16个行为描述语句,形成问卷的题项。问卷编制后请10名博士研究生进行反复阅读和修正,直到问卷题项的表述清晰明确,并将其命名为《问卷调查中的科研不端行为》。
根据16个行为描述语句,加上“假如要提交原始问卷数据”的前提,编写问卷第三部分。例如,在问卷第二部分有一个题项是“根据我的经验,我对问卷调查对象进行了筛选,排除了可能产生不利影响的调查对象”,对应问卷第三部分的题项是“如果要提交问卷原始数据,我会对问卷调查对象进行筛选,排除可能产生不利影响的调查对象”。
每个题项采用5点计分法。“1”表示完全不赞同,“2”表示不太赞同,“3”表示一般,“4”表示比较赞同,“5”表示完全赞同。
(三)初始问卷的效度检验
1.样本与数据来源
问卷星是收集数据的主要途径。先在问卷星上制作问卷,再从10名教师和博士生开始填写和转发问卷,然后利用QQ、微信等途径寻找可能填写或转发问卷的人,利用滚雪球的方法不断转发,逐步积累数据,共获得198份网上问卷。剔除填写时间少于120秒、学历为专科的问卷后,共获得195份问卷。
样本分布情况如下。男性97人,占总人数的49.7%,女性98人,占总人数的50.3%。年龄在30岁及以下的人有118人,占总人数的60.5%;31岁至40岁的人有53人,占总人数的27.1%;41岁及以上的人有24人,占总人数的12.3%。学历为本科的有32人,占总人数的16.4%;学历为硕士(含在读博士)的有114人,占总人数的58.5%;学历为博士的有49人,占总人数的25.1%。
2.探索性因子分析
问卷调查中科研不端行为的内容和结构可以采用探索性因子分析法来确定。数据来源于本次调研的问卷第二部分,应用SPSS20.0的主成分因子分析法进行探索性因子分析,按照因子负荷大于0.5和特征值大于1提取公因子,删除“我用一定方法随机生产问卷调查数据”后,结果(见表1)显示应提取3个公因子。
按照因子包括的题项进行命名。第一个公因子包括9个题项,它们分别是“我修改了原始问卷中的部分数字”“我让已经填写问卷的人代替其他人填写问卷”“我修改了软件处理结果中的数字”“按照我平时的经验,我代替他人填写问卷”“我虚报问卷数量”“我对调查对象的来源作了虚假说明”“我复制了一部分已填问卷中的数字”“我没有按汇报的方法处理数据”“根据预期结论和经验,我填补部分问卷的空白题项”,这些题项描述的是没有进行真实的调查、没有对调查进行真实说明的情形,所以将其命名为“造假行为”。第二个公因子包括3个题项,它们分别是“我没有汇报软件处理结果中无法解释的部分”“我只汇报软件处理结果中对自己有利的部分”和“我用多种方法处理数据,从中选择一种最有利于自己的方法”,这些题项描述的是对数据处理结果没有进行完整说明,只选择了对自己有利的部分,所以将其命名为“隐瞒行为”。第三个公因子包括4个题项,它们是“根据我的经验,我对问卷调查对象进行了筛选,排除了可能产生不利影响的调查对象”“根据我的预期结论,我引导问卷调查对象填写问卷”“我剔除了对预期结论产生不利影响的问卷”和“我采用一定的方法随机制造调查数据”,这些题项描述的是对问卷调查对象和数据进行筛选,所以将其命名为“挑选行为”。
表1 问卷调查数据处理中科研不端行为的探索性因子分析
3.验证性因子分析
验证性因子分析用来确定因子分析结果的稳定性。应用Amos17.0进行验证性因子分析,结果见表 2。绝对适配度指数 p(x2/df)>0.5、RMSEA<0.5,增值适配度指数 GFI>0.9、TLI>0.9、CFI>0.9,简约适配度指数 PGFI>0.5,PNFI>0.5,表示假设模型达到适配的标准。期望跨效度指数ECVI=0.234,假设模型的ECVI值小于独立模型和饱和模型,表示假设模型可被接受。AIC越小表示模型匹配越好并且越精炼,假设模型的AIC值小于独立模型和饱和模型,表示假设模型匹配度比较高。综合以上分析,问卷调查中科研不端行为的探索性因子分析结果比较稳定,问卷的信度和效度比较高。
表2 考官评分策略问卷的拟合指数
(四)形成正式问卷
正式问卷包括3个部分。第一部分是个人基本情况,第二部分是《问卷调查中科研不端行为》问卷,包括15个题项。第三部分是《数据出版对问卷调查中科研不端行为的影响》问卷,包括15个题项。
三、数据出版对问卷调查数据处理中科研不端行为的影响分析
利用SPSS的K-S对问卷第二部分和第三部分的数据进行正态分布检验,结果表明两部分数据都不符合正态分布。由于每份问卷是同一个人填写的,问卷第二部分是没有数据出版情况下科研不端行为的表现,而问卷第三部分是有数据出版情况下科研不端行为的表现,所以两部分问卷的两组数据形成配对样本。结合数据的类型和分布状态,我们选择配对样本非参数检验的Wilcoxon检验,这种方法比其他方法更有效,[6]其结果可以用来说明数据出版对问卷调查数据处理中的科研不端行为是否有显著影响。
配对样本非参数检验的结果见表3。题项(B)是没有数据出版时的情形,题项(C)是有数据出版时的情形。B>C对应的数字表示题项(B)和题项(C)对应的数据之差为正的次数,B<C对应的数字表示题项(B)和题项(C)对应的数据之差为负的次数,Sig表示题项(B)和题项(C)的差异是否显著。如果Sig<0.05,说明两者有显著差异,数据出版对科研不端行为有显著影响。
(一)数据出版能显著减少科研不端行为中的造假行为
在造假行为里,数据出版对9种科研不端行为有显著影响。例如,相比有数据出版的情形,没有数据出版时被调查者对“我修改了原始问卷中的部分数字”的赞同程度更高,说明数据出版减少了这种科研不端行为。Sig=0.00<0.05,说明有数据出版和没有数据出版两种情形下,这种科研不端行为有显著差异。所以,数据出版能显著减少这种科研不端行为。没有数据出版时,被调查者对其他8种科研不端行为的赞同程度高于有数据出版的情形,其配对样本非参数检验Sig都小于0.05,说明数据出版能显著减少这8种科研不端行为。
(二)数据出版能显著减少科研不端行为中的隐瞒行为
在隐瞒行为里,数据出版对3种科研不端行为有显著影响。例如,相比有数据出版的情形,没有数据出版时被调查者对“我没有汇报软件处理结果中无法解释的部分”的赞同程度更高,说明数据出版减少了这种科研不端行为。Sig=0.001<0.05,说明有数据出版和没有数据版两种情形下,这种科研不端行为有显著差异。所以,数据出版能显著减少这种科研不端行为。没有数据出版时,被调查者对2种科研不端行为的赞同程度高于有数据出版的情形,它们是“我只汇报软件处理结果中对自己有利的部分”和“我用多种方法处理数据,从中选择一种最有利于自己的方法”,其配对样本非参数检验Sig都小于0.05,说明数据出版能显著减少这2种科研不端行为。
表3 配对样本非参数检验结果
(三)数据出版显著增加了科研不端行为中的挑选行为
在挑选行为里,数据出版对1种科研不端行为有显著影响,对2种科研不端行为的影响不显著。例如,相比有数据出版的情形,没有数据出版时被调查者对“根据我的经验,我对问卷调查对象进行了筛选,排除了可能产生不利影响的调查对象”的赞同程度更低,说明数据出版强化了这种科研不端行为。Sig=0.0026<0.05,说明有数据出版和没有数据出版两种情形下,这种科研不端行为有显著差异。但“根据我的预期结论,我引导问卷调查对象填写问卷”和“我剔除了对预期结论产生不利影响的问卷”的配对样本检验Sig>0.05,说明有数据出版和没有数据出版两种情形下,科研不端行为没有显著差异。所以,数据出版显著增加了1种科研不端行为,而对另外2种科研不端行为没有显著影响。
四、改善问卷调查数据处理中科研不端行为的建议
(一)积极推动数据出版的发展
本文研究表明,数据出版能减少“造假行为”和“隐瞒行为”中的12种科研不端行为,所以积极推动数据出版的发展有利于治理科研不端行为。目前,只有少量基于问卷调查的数据库已经出版或开放共享,大量问卷调查数据仍然分散在不同研究机构和研究者手中,仅仅从公开发表的科研成果难以发现其中的科研不端行为,所以科研不端行为的治理只能依靠学术声誉和自身素质的自我监督。当这种自我监督无效时,数据出版为治理科研不端行为提供了新的外部监督机制。
已有研究表明,数据出版在技术上可行、实践上已经得到应用,未来应该进一步推动数据出版的发展。[7]为了提高数据出版在科研不端行为治理中的应用价值,未来应完善数据出版制度、加大数据出版的技术研发、建立分级数据出版制度,逐步推行科研数据强制出版。[8]
(二)增强科研不端行为识别技术的研发
本文的研究表明,数据出版对2种科研不端行为的影响不显著,可能的原因在于“引导调查对象填写问卷”“剔除不利于自己的问卷”的行为比较隐蔽,即使提交了原始数据,也很难被发现。因此,治理科研不端行为应在推动数据出版的同时增强科研不端行为识别技术的研发。同行评议是数据出版的前提,也被认为是预防科研不端行为的有效手段,LaCour造假事件表明,[9]同行评议并不能保证发现每个领域内的科研不端行为,所以在同行评议的基础上应该加强对科研不端行为识别技术的研发,总结和发现科研不端行为在数据上的表现规律,为同行评议提供方向指导。
(三)综合运用多种手段治理科研不端行为
数据出版对2种比较隐蔽的科研不端行为的抑制作用不显著,却强化了排除调查对象的行为,说明可能还有其他因素影响科研不端行为。数据出版为科研不端行为提供了外部监督机制,但可能使科研不端行为变得更加隐蔽,即使有数据出版,也很难发现。由于需要提交原始数据,为了让调查数据出现预期的结果,排除不利的调查对象是比较可取的,所以数据出版强化了这种行为,这种科研不端行为产生于研究者的内在动机。所以,在推动数据出版的同时,治理隐蔽的科研不端行为应从个体因素、组织因素和社会因素多方面入手。[10]
[1]中国科学院.中国科学院关于科学理念的宣言、关于加强科研行为规范建设的意见[M].北京:科学出版社,2007
[2]袁维勤.“985”高校科研不端行为的“立法”研究[J].山东科技大学学报,2011(4)
[3]风笑天.社会调查中的问卷设计[M].北京:中国人民大学出版社,2014
[4]屈宝强,王凯.数据出版视角下的科学数据同行评议[J].图书馆杂志,2017(10)
[5]汪俊.成果共享视角下科研不端行为的治理机制[J].中国科学基金,2015(5)
[6]杜强,贾丽艳.SPSS统计分析从入门到精通[M].人民邮电出版社,2009
[7]何琳,常颖聪.国内外科学数据出版研究进展[J].图书情报工作,2014(5)
[8]傅天珍,陈妙贞.我国学术期刊数据出版政策分析及建议[J].中国出版,2014(12)
[9]《科学》杂志论文数据造假现形记[EB/OL].http://www.360doc.com/content/15/0608/23/20625683_476675720.shtml
[10]赵君,鄢苗.科研不端行为的概念特征、理论动因与影响因素[J].中国科学基金,2016(3)