“反剽窃”在路上
2009-06-20凌冰李渝
凌 冰 李 渝
国内对学术论文“造假”的监督并非始自今日。2000年3月,上海师范大学法商学院的何云峰教授单枪匹马地建了一个“好汉网”,豪气十足地叫板校园里势头渐旺的剽窃抄袭等不良学风。
同年,著名“打假斗士”方舟子也创办了中文学术打假网站“新语丝立此存照”,陆续揭露了500多起学术涉假案例,其中包括“核糖核酸”、清华大学医学院“刘辉造假事件”等引起广泛关注的学术造假和腐败事件。方舟子们的学术打假多通过网友检举,并没有专业的仪器进行技术支撑。
2003年,武汉大学信息管理学院副教授沈阳在国家自然科学基金的资助下,研发了一套与“学位论文学术不端检测系统”功能相似的系统——ROST反剽窃系统,也称为“学术不端行为检测系统”,并于2008年4月研制成功,目前已在全国20多所高校院系推广和100多家期刊社使用,但没有大规模推广。用沈阳的话说,“就像原子弹一样,它是大规模杀伤性武器,这需要核军控的”。
在2009年“两会”前夕,爆出两起院士涉嫌学术不端行为的事件。6名教授联名投诉中国工程院院士刘兴土涉嫌“抄袭剽窃”。此前不久,浙江大学原副教授贺海波盗用他人研究结果发表多篇论文。贺海波的博士后合作导师、中国工程院院士、浙江大学药学院院长李连达的名字也出现在这些“问题论文”上。随后,教育部部长周济就“贺海波论文造假”事件及处理结果表示,对学术不端行为要像体育界反兴奋剂一样“零容忍”。
2009年3月19日,教育部发出了《关于严肃处理高等学校学术不端行为的通知》,这是我国教育部门首次就处理学术不端行为发出通知。通知明确高校对本校有关机构或者个人的学术不端行为的查处负有直接责任,应建立健全处理学术不端行为的工作机构。整个学术界颇有山雨欲来的感觉。
正是在这样的背景下,由中国学术期刊(光盘版)电子杂志社与清华同方知网共同研制的“学位论文学术不端检测系统”(简称“TMLC”)开始在高校推广。
检测的方法涉及一个专业术语——“自适应多阶指纹”。什么是信息指纹?沈阳副教授打了个比方,就是每个人说话都有口头禅,这个口头禅就是你的一个特征,这个特征就叫信息指纹。具体到一篇文章来说,比如研究金庸小说,金庸喜欢用什么字,用字的规律是多少,每个字在整个文章出现的概率是多少,这就是一个指纹。CNKI科研诚信管理系统研究中心主任孙雄勇向《中国新闻周刊》记者介绍,如果说得通俗一点,就是两篇文章,如果有一个句子相同,哪怕有一些改写,都能检测出来。
“测谎”工具的检测工作需要强大的后台数据库支持,TMLC的后台是覆盖了超过5000万的学术文献数据库。
“测谎”技术在目前来说,已经是一个成熟技术了,国外早已广泛应用于多所高校及科研机构。
在一系列反剽窃网站中,最为出色、应用最广泛的莫过于“Turnitin”,中文意思是“交上来”,它也是全球第一个检测剽窃行为的网站。该网站目前已阻止了世界范围内将近600万的学生和教育者的剽窃行为,在使用高峰期,每天可收到2万篇论文。
“Turnitin”通过三个数据库的内容来检测交上来的作品:公众可以查到互联网上所有存档的文件(超过45亿页,每天更新4000万页);成百万的已经出版的作品,包括商业数据库、期刊摘要等,还有上万本电子书籍,包括古登堡经典文献收藏;成百万篇学生交到网站的论文。
在中国,数据库也在不断完善之中。不过,“反剽窃”系统要面对的,似乎远远不是技术难题。