互联网军事医学信息资源采集与鉴选策略研究
2018-03-21精理
,精理,
军事医学研究离不开信息支撑。从信息的流通方式与传递范围进行划分,信息资源可以分为内部资源与公开资源两类。因安全保密性要求,所有国家均将其自身产生的军事医学信息资源列入不同等级的涉密信息范围,大大增加了对其搜集、组织与服务的难度。与此同时,世界各国从上世纪中后期开始就特别注重公开信息的研究,原因在于大多数国家的科学信息出版不受政府限制,公开信息内容的全面性、系统性以及易获取性,使其研究价值往往超过内部信息。其中一个最典型的例子就是德国坦克问题[1]。
公开出版的军事医学相关信息都是军事医学研究的“基础养分”,甚至物理学、化学及工程学等学科中一些重要的新发明、新技术、新物质等均可成为推动军事医学发展的重要“养分”。因此,充分利用现有的公开信息资源显得非常重要,仅将其收集起来显然无法满足军事医学研究的需求,必须对其进行合理甄别、筛选、组织与描述。
1 互联网军事医学信息资源自动搜集策略研究现状
从宏观层面看,在互联网信息资源采集与长期保存策略方面,欧美等西方国家采用全面收集、选择性收集、联合收集、专题收集和与出版者协商合作收集等不同策略完成了一些代表性的项目[2-4],而出于某一目的或某一主题的信息资源采集大多会选择专题收集的方式完成。从微观层面看,国内关于军事医学信息资源建设的研究较少。
龙旭梅运用情报调研、专家咨询、统计分析等方法,提出了军事医学信息的鉴选原则、评价指标及操作步骤[5];刘伟等运用系统工程方法构建了从资源评价到效果评估的优化流程[6]。但前者的研究对象为图书馆纸质文献资源,后者则重点关注期刊资源,二者均未涉及互联网上的公开信息资源。另外,互联网信息自动搜索技术研究由来已久[7-9],但从现有研究的理论模型成熟度与实际运行效果来看,尚属于探索性研究范畴。网上的开放源码(Open Resource)软件大多存在采集策略简单,爬行耗时较长等问题。
2 互联网军事医学信息自动搜集策略的制定
2.1 采集范围及策略的确定
要确定军事医学信息资源的采集范围,必须准确界定军事医学及其信息资源。由于适用对象或语境不同,学界对军事医学的界定存在较大差异。
本文采用的是学界引用较多的由贺福初于2011年提出的定义,即军事医学是研究在军事活动中鉴定、保护、恢复和促进军队成员健康的理论、技术和组织方法的特种医学,是医学与军事学的交叉学科[10]。
由于军事医学的交叉学科性质,我们认为军事医学信息资源为军事医学研究所需的所有相关信息资源而非仅仅是包含有军事医学内容的信息。分析现有网络信息资源发现,军事医学信息资源主要呈散在分布状态。综合信息源中可能含有军事医学信息,普通医学信息源中也可能含有军事医学信息,而专门的军事医学信息源中也可能含有非军事医学内容,增大了军事医学信息资源自动采集与识别的难度。
按信息来源(或信息交流方式)的不同可将网络信息资源划分为正式出版信息、半正式出版信息和非正式出版信息三大类[11-12]。正式出版信息是指受知识产权保护且质量稳定可靠的信息(如电子图书、电子期刊、电子报纸、文献数据库等),半正式出版信息指受到一定产权保护但没有纳入正式出版信息系统中的信息(如内部研究报告等),非正式出版信息则是指流动性强、信息量大且质量难以保证的动态信息(如电子邮件、论坛信息等)[12]。由于军事医学的特殊性,网络上可获取的有价值的军事医学学术信息资源以正式出版信息与半正式出版信息为主,其主要来源为政府、研究机构、大学、公司企业与非营利性社会组织等。
确定军事医学信息资源的采集范围为政府、研究机构、大学、公司企业与非营利性社会组织发布的正式出版信息与半正式出版信息。作为测试,本文采集了以下几类网站:国家卫计委等卫生事业管理单位网站,中国科学院等研究中心网站或专题网站,“生物谷”等专业性综合网站,维普等中文期刊网站,陆军军医大学等大学网站。
资源采集策略采取专题收集(即针对某一主题进行信息收集)与选择性收集(即结合需求特点有选择地收集和保存网络信息资源)相结合的方式。在鉴选策略方面,本文采取两步走的策略:先结合发布机构类别、信息源类型、信息发布方式、发布者等因素对军事医学信息源进行初步鉴别,再根据军事医学词汇的词频统计进行信息筛选。
为提升信息采集效率,本文根据具体信息源的实际情况进一步确定了信息自动采集的范围、采集深度以及采集频率等。如军医大学网站根据需要主要采集新闻动态、专家学者以及出版刊物等信息,期刊信息采集包含期刊题录、摘要信息及全文。采集深度一般最多采集至三级栏目。
2.2 互联网军事医学信息鉴选策略的制定
除对军事医学相关的信息源进行筛选外,还需对具体的军事医学信息进行甄别与鉴选。词频位置加权相关度排序算法作为一种比较经典的方法,早已用于信息提取、自动分类、自动标引等智能信息处理领域[13-14]。本文在前期研究的基础上[15],确立了通过军事医学信息自动识别辅助词表实现军事医学信息识别,并结合词汇类别、出现频次、出现位置等因素制定信息筛选的研究路线。
2.2.1 军事医学信息的自动识别
要实现军事医学信息的自动识别,首先要让计算机识别出属于军事医学范畴的信息内容,可以通过构建军事医学信息自动识别辅助词表并结合编程帮助计算机实现。
笔者经文献调研后发现可供参考的相关词表有《汉语主题词表》(1991)、《军用医学主题词表》(1993)、《军用后勤主题词》(1992)、《军用主题词表》(1990)、《中国图书馆分类法》(2010年第五版)、《医学主题词表》(年度更新,2017)、《中国人民解放军军语全书》(2011)、《中国大百科全书·军事分册》(2007年第二版)、《中华医学百科全书·军队卫生学分册》(军事与特种医学)(2017)。
经词表分析及文献调研发现,近20年为我国科学技术研究的调整发展期,军事医学类的大量科技新词也在此期间出现,如《中国大百科全书·军事分册》在2007年再版时新增条目数超过60%。结合词表的类目设置以及收词情况,前4种由于出版时间较早,新词覆盖率较低,最终选择后5种作为重要参考工具。通过对上述5部词表收录词汇的分析与归纳,本文将拟用于军事医学信息自动识别辅助词表构建的可用词分为核心词、学科相关词、关联相关词以及潜在相关词四大类。
核心词即直接反映军事医学研究内容与特色的词汇。以MeSH的军事医学类主题词以及《中华医学百科全书·军队卫生学分册》部分收录词为主,如“军事医学”“枪击伤”“战创伤”“军队卫生”“海军医学”“军事心理”“军事精神病”“军事护理”“军事毒物”等。如王正国的颅脑战创伤研究、王松俊的高技术局部战争与军事医学以及《科技日报》的34℃体温可为战创伤休克抢救赢得时间。
学科相关词即不直接反映军事医学内容但在分类体系上与军事医学学科相近或内容密切相关的词汇。以《中图法》第五版中与军事医学密切相关的其他学科词,如R81放射医学、R83航海医学、R84潜水医学、R85航空航天医学的部分类目以及MESH词表中急救医学相关类目,如“急救”“自救互救”“高原病”“辐射损伤”“航空航天病理学”“航海卫生”“爆震伤”“神经毒素”“救援作业”等。文献实例如美国国家辐射防护和测量委员会第176号报告中的纳米技术的辐射安全问题等。
关联相关词即在特定语境中与军事词汇组合从而反映部队常见疾病等军事医学内容的相对高频的普通医学词汇,如“截肢术”“痢疾”“创伤”“损伤”等。在文本分析过程中,关联相关词的利用需要将这些相对高频的普通医学术语与军事类术语结合以达到内容自动鉴别的目的。军事词汇术语主要选自《中国大百科全书·军事分册》(2007)及《中国人民解放军军语全书》(2011),如“军事训练”“陆军”“加农炮”等。根据收录词汇性质具体分为以下几种组合形式:普通医学术语+军事人员对象(如军人手外伤现场救护与后送的常见失误及对策),普通医学术语+军事环境(如野战条件下软组织伤、烧伤及手创伤的处理),普通医学术语+军事用途(如遥控医学用于医疗和战伤救护),普通医学术语+军事装备(如152mm加农炮对听器损伤的调查),普通医学术语+军事医学单位(如法军第二外籍伞兵团的卫生后送),普通医学术语+军事医学专家(如王正国要警惕冲击伤伤员迟发性损伤)。
潜在相关词即可能对军事医学产生重要影响的其他学科术词汇。这类词主要选自《中国人民解放军军语》(2011)以及《中国大百科全书·军事分册》(2007),并结合样本文献的关键词分析而选出。如“纳米”“抗重力服”“海水淡化”“苦咸水淡化”“坑道给水”“舰艇给水”等及姜海波等的偏远岛礁就地供水保障模式分析。
2.2.2 军事医学信息的鉴选规则
对初步采集回来的信息进行分词处理后,需进一步实现其相关度的排序,并以其相关度值的大小实现军事医学信息的鉴选与分级处理。受卢恩的自动标引思想[16]以及搜索引擎检索结果排序算法[14]的启发,本文采用词频位置相关度算法实现,即根据网络军事医学信息资源的特点,结合其词汇类别、出现频次、出现位置、载体性质、文献类型等因素,分别赋予其不同的权值,并根据计算汇总得到每篇文献的相关度值,再将其分为强相关、相关、弱相关以及潜在相关4个级别。
3 互联网军事医学信息鉴选的计算机实现
为验证方案的可行性,我们于2018年4-8月利用自主开发的网络信息抓取工具对以上所述的我国重要的卫生事业管理单位、研究中心、专业性综合网站、中文期刊网站及部分大学网站分别进行了信息采集。
在维普中文科技期刊库中采集所有期刊论文的题录信息,在其他网站内采集新闻动态信息,最终筛选出军事医学类期刊论文文献3 633篇,新闻动态信息3 029条(图1)。
图1军事医学期刊论文抓取结果页面
以中科院张华平博士开发的NLPIR汉语分词系统为基础的信息分析工具,利用本文自建的军事医学信息自动识别辅助词表作为自建词表,实现对采集结果的进一步甄别、筛选及相关词。表1展示了期刊与新闻信息中提取到的军事医学相关词部分实例结果。为便于分析,在自建词表中,采用不同的标记符号对类别进一步细分,将其中的各类名词分别标识如下:军事医学类-nmm,军事医学单位-nmd,军事医学人员-nmp,普通医学词汇-nme,军事词汇-nmi,潜在相关词汇-nmc。其中军事医学词汇根据需要可进一步细分为军事人员对象-nmip,军事环境-nmis,军事用途-nmit,军事装备-nmie。图2为某单篇文献中军事医学相关词的自动提取结果示例。
4 讨论
交叉学科因其界域模糊而使信息资源的搜集工作非常棘手。采集结果说明,通过军事医学信息自动识别辅助词表实现网络军事医学信息的自动识别与筛选的研究思路是可行的。
本文在实验过程中也同时发现存在下列问题:一是由于网站结构间的迥异以及采集速度的制约,使军事医学信息资源自动采集策略的制定尚不能实现全自动化,需一定的人工干预;二是自建词表的收词数量以及词长决定识别率,需要在实际操作过程中平衡(一般而言,专业文献长词的意义专指度高于短词[17]);三是由于时间及精力因素,本文此次实验仅验证了期刊与新闻动态类资源,未涉及学位论文、研究报告等。
表1 系统文献筛选及相关词提取实例
图2 某单篇文献中军事医学相关词自动提取结果