医学灰色文献:开放科学环境下医学信息资源建设的新挑战*
2022-08-30张大庆
徐 坤 张大庆
1 开放科学与灰色文献概述
近年来,随着全球化的深入,科技创新范式的转变,科学的发展必将走一条开放的道路,已成为普遍共识。2021年11月,联合国教科文组织召开第41届会议,审议通过了《开放科学建议书》,将开放科学定义为“一个集各种运动和实践于一体的包容性架构,旨在实现人人皆可公开、获取和重复使用科学知识,为了科学和社会的利益增进科学协作和信息共享,并向传统科学界以外的社会行为者开放科学知识的创造、评估和传播进程”[1]。开放科学涵盖基础科学、应用科学和人文社会科学各个研究领域,涉及研究设计、研究设备、科研数据、科研进程、结果与成果等研究全过程,还强调社会行为者的开放式参与和开放式对话。
开放科学为信息资源建设与服务带来了更大的挑战与更多的机遇,也提出了更高的要求。一方面,开放科学强调不限于最终科研成果的科学研究全过程、全要素的开放共享,扩大了信息资源的范畴,从图书、期刊,到软件、数据,从订购资源,到开放资源。另一方面,开放科学强调科研全链条上社会各方的开放式参与和互动,拓宽了信息服务、知识服务的业务范围和服务模式,从文献支持,到科学研究全要素支持,从“为人找书、为书找人”的读者-资源互动模式,到科研工作者-科研过程-科研资料-读者-外部因素的多边互动模式。在开放科学的环境下,图书情报机构将转变为参与科学研究全过程和互动反馈的“嵌入式协作化知识实验室”[2]。
除了最终正式发表的科研成果之外,科学研究进程中产生的大量研究数据、过程性资料、注释性资料等,被称为灰色文献(grey literature)。灰色文献的提出始于20世纪70年代,是相对于白色文献(公开出版发行的正式出版物)和黑色文献(不公开、完全保密的文献)而言的,目前较为完善的定义是2010年在布拉格举办的第十二次国际灰色文献会议上提出的:灰色文献是由各级政府、学术单位、工商业界所产制的,不受商业出版控制的各类印刷与电子形式的文献资料,即灰色文献的出产方不以出版为首要活动;灰色文献包括多种文献类型,受到知识产权保护,且质量足以由图书馆或相关机构收集和保存[3]。
灰色文献是未经正式出版但具有使用或留存价值的资料,“任何经记录的(但未出版的)、可参考的和可存续的,具有当前或未来价值的数据或信息资源”[4]都可以被视为灰色文献,不仅包括各类文本形式的资源,还包括各种非文本资源。灰色文献应同时具备“灰色”特征和文献属性。灰色特征涉及到灰色文献产出、流通/传播、收藏、利用的各个层面,但其核心是未经同行评议和正式出版。文献属性则是指无论灰色文献是文本还是非文本,都应具备可记录、可编目、可存储、可传播等基本的文献属性和功能。
医学灰色文献是按照学科领域从灰色文献中划分出的一部分,指的是传递医药卫生知识或信息、或以医药卫生问题为关切、或与医药卫生行业相关的,未经正式出版和同行评议,具有利用或留存价值且允许进行收集、组织、存储、传播、利用的文本或非文本的资源。
2 医学灰色文献的价值
灰色文献具有多维度的价值,包括文献价值、情报价值、历史价值、数据价值、社会价值、智库价值、学术价值、经济价值等[5]。在医学研究中,灰色文献的价值更为独特,且具有不可或缺的重要意义。
2.1 消除发表偏倚,促进信息透明
在正式发表的学术研究中,研究者、期刊编辑、审稿人都更加青睐具有显著意义的阳性结果,而无显著意义或无效的阴性结果一般无法或很少获得发表,使得学术发表的方向和强度都产生偏差,阳性结果获得发表的机会更多、更早,造成了发表偏倚(publication bias)的现象。发表偏倚在医学领域影响重大,并与公众健康息息相关。进行医学学术研究时,如果在文献回顾中只关注了正式发表的论文,可能导致不必要的重复研究,或对既往研究的安全性和有效性等结果产生夸大评价。对于社会公众,除了学术期刊,通讯、报道等其他公开途径也是获取医疗信息的重要渠道,但这些途径不仅更加倾向于披露获得积极结果的研究,还容易受到研究者/赞助方选择性公开的左右,对于正在进行中或未能发表的医学研究则无从知晓。这种信息不对称会影响公众的医学认知和健康决策。
为了尽量减少或消除发表偏倚,促进医学研究信息透明,增强医学研究客观性,相关医学灰色文献的收集与披露尤为重要[6]。这些灰色文献既应包括已完成但未发表的研究结果,也应包括尚未完成的研究过程资料。
2.2 加速知识交流,佐证知识产权
灰色文献没有经过同行评议和正式出版的流程,虽然有损于质量和可靠性,但胜在及时性和灵活性。灰色文献同样可能包含非常具有学术价值的信息,如著名的庞佳莱猜想证明,就仅以预印本的形式发表。科研成果以灰色文献的形式快速发表,可以缩短其面世时间,扩大早期影响力。在面对诸如新冠肺炎疫情等突发事件时,全世界的科研人员能否尽可能快速和广泛地分享相关研究进展,是关乎全球公共卫生利益的大事。
此外,由于正式出版的审稿周期较长且不固定,如果仅以学术论文正式发表的时间来判定同主题独立研究的先后会有失偏颇。因此,越来越多的科研工作者已倾向于利用灰色文献来作为科研首发权的客观见证,将研究草稿以预印本的形式即时发表,或将研究过程进行实时披露,都有助于明确知识产权归属,避免学术纠纷。
2.3 支持重复检验,增进科研诚信
科研诚信是科学研究的基石,科研诚信失去保障,科研结果的真实性和可信度将为之动摇。科学研究可靠性的核心在于其可重复性(reproducibility),即运用同样的试验条件和方法,可以得出同样的试验结果,以证明该结果的产生具有必然性,而非偶然性,否则科学研究将失去意义,甚至涉嫌学术不端。生物医学领域是学术不端行为的重灾区,存在各类诚信问题的学术论文可能一度高达半数[7]。抵制学术不端,增进科研诚信,事后监督必不可少;另一必要手段就是注重包含科学研究全链条中各类资料和数据的灰色文献的收集与发布,鼓励甚至强制科研数据、科研方法、科研过程的公开,完善科学研究预注册制度,督促研究进程更新,以支持可重复性研究,建设良好的科研环境。
2.4 记录科学原貌,留存社会记忆
保存社会记忆,促进知识交流,是文献信息资源建设的使命与目的。与正式出版物相比,灰色文献作为反映社会史实的材料,更具有即时性、真实性和个体性,蕴含着不可替代的史料价值。灰色文献记录了真实的科研进程和社会生态,从不限于官方视角的多个维度反映了科学研究现状及其与社会各要素的互动。尤其在诸如新冠肺炎疫情等重大公共卫生事件发生时,学术论文等正式出版物远远不足以反映该事件对人类社会造成的巨大影响。围绕此类主题开展灰色文献的收集和保存,有利于全面记录历史事件的发生、发展历程,留存历史面貌,保存全民记忆。
3 开放科学语境中的医学灰色文献及其开发利用
3.1 医学灰色文献的分类
灰色文献一直缺乏公认的分类方式。在纸张作为知识与信息主要载体的时代,灰色文献较容易作为“非正式出版物”进行理解,那时的灰色文献仅包括科技报告、会议论文、学位论文、政府文件等有限的类型。随着信息技术的发展,越来越多的非文本文献(non-textual literature)或超文本文献(hypertext)使“文献”的概念逐渐脱离纸张,从平面走向立体,从实物走向虚拟。在这一过程中,灰色文献的边界也进一步扩大并模糊了。目前灰色文献国际合作网络平台GreyNet上列出的灰色文献类型已经达到了130余种[8];2011年由捷克国家技术图书馆牵头成立的“灰色文献分类工作组”将灰色文献分为16个大类、55个亚类[9]。这两种分类方式是目前开展灰色文献研究的重要参考,但它们都倾向于用枚举法穷尽灰色文献可能包含的文献体裁,仍存在一定的局限性。灰色文献资源建设的根本目的在于开发利用与长期保存,在灰色文献的类型难以“穷尽”且一直处于动态变化和新增的情况下,应采取更接近灰色文献本质、以文献形态与组织方式对灰色文献进行分类且具有一定灵活性和兼容性的分类框架。
医学灰色文献涉及到灰色文献的各种类型。开放科学关注科学研究全生命周期的各方面要素,不仅拓宽了医学灰色文献的研究范畴,还明确了各类型医学灰色文献在科学研究中的价值和地位。对医学灰色文献的分类不仅应考虑文献信息资源的相关特性,还要参考各类医学灰色文献在医学研究中扮演的角色。长期以来,我国对医学灰色文献的关注多限于文本型文献,如学位论文、科技报告、教学资料等。其实,学位论文、会议论文、科技报告等对于医学研究的重要作用主要体现在为循证医学提供正式发表物中可能没有涵盖的医学证据;教学资料、近期兴起的“抗疫”题材纪实资料等可以分别反映并记录医学教育活动以及医学对社会的影响;此外,常常被忽视的一点是,精准医学、转化医学所需要的科研数据与临床数据也可以视作医学灰色文献的一种非文本形式。汇总来说,灰色文献可以划分为以下四大类:常规型灰色文献,数据型灰色文献,网络型灰色文献,以及史料和特藏型灰色文献。
3.2 常规型医学灰色文献的开发利用
常规型灰色文献指的是围绕某一主题、按照一定格式撰写、基于文本形式的没有正式出版的文献,主要包括科技报告、学位论文、会议论文、预印本、专利、成果、年鉴、标准、法规、手册、翻译稿、政府和组织机构文件等形式。医药卫生类的常规型灰色文献,是以医药卫生相关信息为主要内容的学术文献,或以医药卫生学科或行业为关切对象的规范性文献;也可以总结为是与医药卫生科学研究或实践相关的按一定格式撰写的基于文本的灰色文献。
常规型灰色文献从内容和形式上近似于正式出版物,也可以称为“类白色”文献,其便于书目控制,大多可适用正式出版物的文献分类与编目方式,因此是目前开发利用程度最高的一类灰色文献,并形成了四种开发模式[10]:集中模式(集中管理、集中开发、集中服务);分散模式(分散管理、分散开发、分散服务);分布模式(集中管理、分散开发、分散服务);集成模式(分散管理、分散开发、集成服务)。常规型医学灰色文献开发利用的典型范例包括纽约医学院的Greylit医学灰色文献报告和医学预印本平台等。
纽约医学院从1999年开始收集医学灰色文献,并将其集成为医学灰色文献报告,发布于Greylit网站,自2006年起保持每双月发布一次,至2016年底停止服务时,共发布了93份。纽约医学院所收集的灰色文献主要来自公共卫生领域,包括健康和科学政策、老龄化、弱势和特殊人群、社区卫生、全球健康等主题。其资源按照Mesh词表进行编目和索引,可以按照作者、题名、发布者、发布日期和编目日期进行分类查找。
预印本(preprint)指的是尚未在同行评议学术期刊中正式发表的科技论文手稿。发布预印本可以迅速分享科学研究的结果,扩大研究影响力,同时锁定首发权。作为重要的学术传播与知识交流方式,预印本在全球应对新冠肺炎期间发挥了关键作用[11]。据医学信息共享组织ASAPbio的统计,目前世界范围内收录并发布生物医药领域文章的预印本平台已达54个[12],包括综合性平台、多学科平台和专门的生物医学预印本平台,后者的典型代表是2013年推出的bioRxiv和2019年推出的medRxiv等。至2022年2月,bioRxiv和medRxiv已发布新冠肺炎疫情相关预印本2万余篇。
3.3 数据型医学灰色文献的开发利用
数据是对客观事件进行记录并可以鉴别的符号。医学数据也可以叫作医疗数据、健康数据,是与医学研究、医疗实践、公共卫生、个体健康等相关的各类数据。医学数据既是开展医学研究和医疗实践的基础,又是医学研究和医疗实践中富有价值的产出。单纯的数据本身并不是文献,也不是灰色文献;指定范围内的同类数据按照一定规则组成的数据集合,才形成了数据型灰色文献。数据集是人们认识和利用数据的基本单位,它包括数据本身和对数据的描述,以及数据组成集合的规则。只有在数据集的基础上,数据才能被描述、认识和使用,并具备了可记录、可编目、可存储、可传播等文献属性和功能。这类未经正式出版的、可组织、可存储、可传播的医学数据集合,可以称为数据型医学灰色文献。
数据型医学灰色文献的来源非常广泛,如基础研究产生的数据(包括基因组学研究和其他医学基础研究),临床医疗实践产生的数据,公共卫生(流行病、人口统计)数据,个体数据(无论患病还是健康状态下)等。实现对医学数据的统筹管理与利用的前提,就是要抓住医学数据的资源属性,将医学数据像文献一样管理,包括重视其元数据的统一和互操作性,关注其知识产权和引用规范,将其纳入科研评价制度等,最终目标是让医学数据可以像文献一样被使用,让科研人员共享数据像发表论文一样有热情[13]。
美国国立医学图书馆(The National Library of Medicine,NLM)是数据型医学灰色文献开发利用的典范。其与科罗拉多大学健康科学中心合作的可视化人体项目,通过对捐赠者进行人体解剖学数据的采集和三维重构,构建了包括人体横断面CT扫描、MRI扫描和解剖学彩色冷冻切片数字图像及其3D渲染效果的数据集,被认为是“将医学教育带出了黑暗时代”的创举[14]。NLM建立的临床试验注册系统(ClinicalTrials.gov)和临床结果数据库如今已登记了来自全球220个国家和全美50个州的40余万项临床研究,是世界上最大的临床试验注册数据库,也是唯一一个全面保存临床试验结果的数据库[15],对披露研究信息、增进研究数据透明化有着重要作用。
3.4 网络型医学灰色文献的开发利用
网络型医学灰色文献指的是以网络为载体,传递医药卫生知识或信息、或以医学事件为关切,允许以一定方式进行分类、组织、存储与利用的,非正式出版的网络信息资源,通常只将网络原生的医学灰色文献纳入此类别,即不附着于纸质等实物的载体之上,直接以网络为载体产生和传播的医学灰色文献。这类资源最大的特点就是不稳定性,包括内容易变、地址随时可能移动和消失等。
网络型医学灰色文献资源除了本身蕴含的知识或信息,还有深层的档案价值和社会价值,大量与医药卫生相关的网络型灰色文献以集体叙事的方式记录和反映了当下的医学思想、医疗实践及其与社会的相互作用;尤其在公共卫生事件发生时,网络型灰色文献第一时间记录了个人、社区、国家和国际对事件的看法和反应,共同建构了与此公共卫生事件相关的“数字记忆”。多元个体在网络的集体书写与述说中获取了认同和安慰,起到疗愈创伤的作用[16],从而进入了叙事医学的命题。
网络型医学灰色文献资源建设一般可以分为两种模式,一种是常态化建设,一种是针对突发事件的专题建设。常态化建设又可以分为针对某一主题(如某疾病)、某一类别资料(如政务信息、科普文章)的长期追踪和针对某一发布主体(如某机构、个人)、发布平台(如某网站、社交平台)的长期存档。常态化建设的时间线长,但资源选择范围相对较窄;专题建设一般时间较为集中,但资源选择范围广。
中国国家图书馆自2018年起研发并推广部署“网络资源保存与服务系统”,采用全域采集与领域采集相结合的方法,融合两种建设模式,实现互联网资源高效和规范化的采集、编目、回放、发布和服务[17]。2019年4月,国家图书馆互联网信息战略保存项目启动,此后新浪网发布的新闻和公开发布的微博,都被国家图书馆保存。新冠肺炎疫情发生以来,国家图书馆主动采集抗击新冠肺炎疫情专题网络资源,包括各类官方网站资源和微博数据,从各级政策、疫情发展动态、防控相关新闻报道、新闻评论以及民众心理疏导举措等方面进行内容采集,以完整收集和保存中国抗疫群像,为未来珍藏现在[18]。
3.5 史料型医学灰色文献的开发利用
史料是指可以据以为研究或讨论历史时的根据的资料。史料型灰色文献呈现丰富的多样性,包括手稿、档案、未出版的印刷品、口述史、照片、史料性视听资料等。哈佛大学图书馆收藏了大量史料型灰色文献,其中不乏医药卫生主题的收藏,如关于传染病和流行病的小册子、手稿、版画、雕刻、图片等,尤其珍贵的是来自哈佛医学图书馆医学史中心的三组视觉资料:中国东北鼠疫(1910年~1911年)的幻灯片,18世纪和19世纪的医学讽刺画,19世纪的医院图景[19]。这些工作在避免史料散佚、保留历史原貌方面作出了巨大贡献,为全世界、全人类保存了研究医学发展史、医学思想史、医学社会史的珍贵资源宝库。
值得指出的是,史料型医学灰色文献并非仅局限于年代久远的资料,留存今天就是书写未来的历史。新冠肺炎疫情期间,北京大学医学部档案馆第一时间收集并留存了北京大学援鄂医疗队在武汉抗击疫情第一线的大量具有历史价值的灰色文献资源,如日记、手稿、旗帜、视频等,并在此基础上举办展览[20],充分发挥了史料型医学灰色文献的教育价值和传播价值。
4 开放科学环境下医学灰色文献资源建设的难点
4.1 知识产权
知识产权是权利人对其创造的智力成果所拥有的权利。灰色文献是智力成果的一种,应当享有与正式出版物同等的知识产权。但由于灰色文献未经正式出版发行,甚至很多仍处于研究数据等原始状态,其知识产权往往难以鉴别,侵权事件难以定性。新冠肺炎发生初期,复旦大学张永振教授团队为了助力全世界科学家协同科研攻关,将破解出的新型冠状病毒的基因数据放在美国国家生物技术信息中心(National Center for Biotechnology Information,NCBI)平台共享,却被南开大学某团队在未经授权的情况下利用该数据抢发论文,引发社会各界对学术道德的讨论。正式出版物的著作权已有明确法律可依,科学研究过程中数据、文稿的知识产权该如何保证,是亟需解决的问题,这显然不能只依赖于科学家的个人操守,还要有成文的法律法规、行业规范,甚至技术手段的支持。
4.2 数据隐私
数据资源已成为国家战略资源和企业核心资产,数据隐私的保护是数据资源开发利用过程中不可忽视的重要议题。数据隐私是数据拥有者不愿意被他人披露的敏感数据,包括数据本身以及这些数据所表现出的相关特性[21]。数据隐私泄露可能出现在数据生命周期的每个阶段,可能造成严重的后果,例如,侵犯个人隐私权和知情权,损害公共利益,甚至危害国家安全。在进行数据资源开发时,隐私保护应是先行条件而非后续措施。保护数据隐私的技术与方法包括:扰动原始数据造成数据失真,利用加密技术隐藏敏感数据,利用算法模型实现数据匿名等[22]。
4.3 质控管理
灰色文献在数量上浩如烟海,形态上复杂多变,要如正式出版物那样对灰色文献进行完整的收集与保存是不可能完成的任务,也缺乏现实层面的可行性与必要性。灰色文献没有经过同行评议,在质量上良莠不齐,有些甚至连真实性都难以保证。普通读者往往缺乏鉴别信息质量的能力,尤其在突发公共卫生事件中,人们对信息获取的即时性需求会掩盖信息准确性的不足。此外,与正式出版物相比,灰色文献的开发缺乏相应制度、经费、人员的保障,而有效识别、筛选、收集、组织、存储与利用灰色文献,却对资源建设能力有着更高的要求。因此,要做好灰色文献的质量控制,保障灰色文献开发的可持续发展,应积极争取政策支持,寻找和开拓稳定的经费来源,制定切合本机构需求的发展策略,探索最适合的管理模式,尝试建立跨区域、跨机构的协作体系,并根据科学环境和用户需求及时做出调整与改变。正确看待灰色文献的优势与劣势,努力寻找全面建设与精准挖掘、快速共享与质量保障、即时响应与持续发展之间的平衡点。
5 结语
开放科学和大数据时代,信息资源呈现“4V”特征,即volume(大量)、variety(多样)、velocity(高速)和value(价值)。用户的需求已经从以文献为单位转变为以知识为单位,即不再满足于找到某本书、某件文献,而更倾向于细粒度的知识组织需求[23],知识来源不再局限于正式出版物。开放科学再次确认了灰色文献在科学研究中的地位和价值,全社会对灰色文献的重视已提升至科技创新的战略层面。尤其在生物医药领域,灰色文献具有消除发表偏倚、促进信息透明、支持重复检验、增进科研诚信等独特价值,医学灰色文献资源的开发利用程度与全社会的健康权利息息相关。生物医学发现平台和数据驱动健康平台应是医学图书情报机构的发展目标。我国对医学灰色文献资源的研究和实践一直逊于国外发达国家,宜抓住开放科学全面推进的机遇,探索将传统以正式出版物为主的医学文献信息资源建设向包括医学灰色文献在内的全类型资源建设的转型路径,释放数据信息潜能,完善包括各类灰色文献在内的科学资源,构建全面立体的医学文献、信息、数据资源仓储,为各层级用户提供精准知识服务,促进医学发展和人类健康。