APP下载

新技术影响环境下地质文献资料服务工作探析

2019-01-18贾丽琼李晓蕾李晨阳

中国矿业 2019年6期
关键词:出版物馆藏资料

孟 洁,贾丽琼,李晓蕾,吴 轩,李晨阳

(1.中国地质调查局发展研究中心,北京 100037;2.中国地质大学(北京),北京 100083;3.全国地质资料馆,北京 100037)

当今在互联网、大数据、人工智能等技术的迅猛发展和带动作用下,国内外科技期刊出版领域在生产方式、传播方法、内容服务模式等方面都发生了巨大变化[1]。地质文献资料作为全国地质资料馆馆藏数据资源的重要组成部分,是科技情报工作的基础,而海量文献数据资源如何向用户提供服务是数据管理者面临的一项重要工作任务。

全国地质资料馆是中国最大最权威的地质资料馆藏机构,近几年来,全国馆每年新进馆5 000余档、约30万件地质资料[2-3],年度增长数据量超过40 TB。其中,馆藏机构中的地质调查成果报告承载的信息量占绝对优势,每年接收的地质调查成果资料涉及专业涵盖地质、煤炭、冶金、有色、化工、建材、石油、核工业、环境等,且资料中的文件类别多样化,包括附图、附表、附件、多媒体、数据库、软件、正文报告等。地质调查成果资料大多是基础性的野外或实地调查工作,主体内容是对地球信息的客观记录,不仅可以为地球的科学研究及找矿勘查工作提供第一手资料,还可以服务于经济、社会、政治、环境等各方面,如铁路、公路、水库、坝基、电厂等重大基础设施工程建设中,都需查明工程地质、水文地质、环境地质、地质灾害以及区域地质工作、矿产资源分布等情况,而地质资料为以上工程建设提供了重要依据[4]。因此,地质调查成果资料是影响面极宽、开发利用潜力极大的文献数据资源。

1 国外地质文献资料服务现状

1.1 美国地质调查局

美国地质调查局(USGS)建立了科技报告文献数据库(publication warehouse),涵盖USGS科学家过去100多年中撰写的超过150 000种出版物文本,包括为公众撰写的科普产品、期刊文章、系列报告、书籍章节等,并按著作年份(1855~2019年)、学科(水文、地质灾害、生物生态系统、矿产、地质、环境与健康等)以及产品类型(基础地质报告、期刊论文、图书、会议论文、数据库、学位论文、小册子、讲座等)构建成不同类别的出版物系列产品,方便用户检索与查询,且很大一部分提供免费下载服务,并在不断地更新中,时效性较强,能够将最新的地质调查和科研成果及时向社会开放共享。同时,多种系列出版物产品表明USGS对文献进行了有效的汇总、分类、筛选等处理工作,从而有利于用户在不同文献库中查询所需的资料。USGS的每一篇报告或论文的在线表达方式丰富,不仅包括基本的元数据信息,如标题、作者、关键词、摘要、正文目录等,还在标题、作者及报告的重要位置链接有DOI(数字对象唯一标识符)、作者ID(ORCiD,作者身份唯一识别符,可以获取作者的身份信息、联系方式及出版成果信息等详细资料)及其他辅助关联信息,在每一篇报告链接网页最下部还有元数据信息表,帮助用户掌握所需报告的其他详细信息。

1.2 英国地质调查局

英国地质调查局(British Geological Survey,BGS)出版物数据产品包括从1832年到现在的大部分已发表作品,还包括回忆录和报告。出版物中包括的产品有出版物查看器、Earthwise数字出版、地图门户、图书馆目录、NERC开放研究档案(NORA)等。出版物查看器中的资源包括自1835年到现在的出版物,可以免费查看正式的BGS印刷出版物和最近的研究报告/开放报告出版物系列。出版物划分系列非常精细,约有170个系列产品,如年报系列、公报系列、地质报告系列、回忆录系列、专题报告系列以及非系列出版物等。BGS提供大量开放成果地质资料的免费下载服务(包括NERC开放研究档案)及网上商店中所有资料印刷版本的购买服务等。每一篇报告的线上表达方式结构化较强,网页上有部分版块展示了出版物的作者信息、元数据信息和摘要信息等,部分版块公开了出版物的在线下载、引用以及在其他文献或社交网络平台分享传播情况的统计数据等。Earthwise是BGS的数字出版频道,其目标是传播BGS的研究成果,促进地质界更广泛地进行自由交换信息,具体表现:在出版物、地图、模型和数据之间建立更强大的语义和空间联系;灵活应对利益相关者的各种需求,新的文化趋势和出版领域的新技术;鼓励更多社区反馈和对BGS出版物的贡献;允许轻松发布详细、丰富的Web内容;为协助项目提供平台;提供免费服务以共享信息。通过分析研究,Earthwise采用了文献结构化处理技术,将每一篇报告或论文进行碎片化处理,按类别或主题、子类别进行分组(如分成前言、摘要、简介、方法、结果、讨论、结论、附录1~5等12个子类别),其中包含构成主题的各个页面的列表。在每个类别页面上,用户可以选择阅读页面、评论页面或撰写自己的文字。BGS在地球科学数字出版领域走在世界前端,Earthwise通过利用数字出版技术传播高质量BGS科学并与更多的地球科学家合作,促进地球科学信息交流,同时满足不同层次用户对知识资源的不同需求。

1.3 加拿大地质调查局

加拿大地质调查局(The Geological Survey of Canada,GSC)设计了“出版物和报告(publications and reports)”网站栏目,提供广泛的地球科学类出版物和报告,且进行了分类,划分为几个大的专题出版物数据库,如加拿大自然资源、地球科学、能源、森林、矿物、金属和采矿。其中地球科学专题数据库为GEOSCAN数据库,包含加拿大地质调查局、加拿大遥感中心以及部门科学家和专家撰写的外部出版物的书目数据库,涵盖内容丰富,既包括大型会议报告的信息免费下载服务,又包括大量基础调查报告、科学论文等出版物的免费下载服务。通过分析研究GEOSCAN数据库中的论文和报告,每一篇论文和报告都具有丰富的元数据信息,如作者、标题、完成时间、DOI、出版物系列、出版者、语言、媒介、文件格式、区域、位置、经纬度坐标、主题标签、插图信息、项目、摘要、简介、发布时间、GEOSCAN唯一标识符等近20项数据,使用户获取文献资源的更多详细信息,丰富的元数据信息可以帮助用户快速发现文献的价值。此外,与纸质书籍和纯粹PDF文件对比,GEOSCAN数据库中每一篇文献的表达方式形式多样,可以浏览和下载各种电子格式的文件,如JPG、PDF、DOC、XML、HTML、XLS、RTF、KML地理信息文件等,使用户获取更多增值知识服务。

1.4 澳大利亚地球科学局

澳大利亚地球科学局(Geoscience Australia,GA)通过数据和出版物(data and publications search)搜索服务平台发布自1951年至今的31 373件产品,且在不断更新。产品类型主要包括应用程序、收集工具、数据库、文档、模型、非地理数据库、软件等,文件格式达10几种,如DAT、ECW、GeoPDF、HTML、PDF、TIF、NETCDF、KML、JPG、NETCDF、SHP、MISC、WCS、WMS、ZIPPED ERS等。数据和出版物中的产品按照产品类型、时间、文件类型、更新频率、状态、服务类型、比例尺等进行了有效分类,将数据资源进行详细分类可以使用户缩小搜索范围,快速获取自己所需的数据资源。每一个数据产品几乎都有简介、摘要、主题标签、元数据等信息,提供多个文件格式的下载服务,且与多个社交平台关联,可以向其他网络平台进行资源共享。GA维护着许多在线工具,用以促进数据的发现和传递。

此外,GA与美国地球科学研究所合作,建立了AusGeoRef文献数据库,数据库每周进行更新,提供的参考文献来自期刊论文、会议论文、摘要、书籍、报告和地图等。AusGeoRef提供出版物的全文搜索,用户不仅可以搜索文献的元数据信息(如标题、作者、注释等),还可以搜索数据库中出版物的整个文本,以便查找所需信息,并与具有地理坐标等信息的出版物进行交互式地理搜索。AusGeoRef还提供了广泛的用户功能,如可以导出引文,创建用户账户以保存查询、引用和创建策划列表,向数据库中添加注释、自定义标记等。AusGeoRef的建立旨在面临地球科学和社会交叉的问题时帮助决策者提高地质调查出版物的可发现性和使用率。

这几个国家在文献资料服务方面均展现出多元、开放、合作的特点,主要体现在:①开放程度高,大量数据可下载使用;②数据服务产品多元化,包含基础地图、地形图、交互式地图、3D模型、报告、文档等;③数据格式多样,如GeoPDF、XML、WMS等;④链接作者ID,提供作者相关信息及其他详细成果资料,帮助用户获取大量信息,且方便用户及时与作者进行沟通;⑤数据库定期更新,及时向社会提供服务;⑥利用数据库、主题标引等技术用以增强数据资源的可发现性;⑦与其他国家研究机构相互合作,协同整合、开放和共享大量数据资源。但是,相比现在的大数据、语义网与关联数据、云计算、人工智能等计算机技术的快速发展,国外地质调查机构对于地质调查成果资料的开发和利用还有很大的升级空间。

2 我国地质文献资料发展存在的问题

2.1 馆藏文献量大,开放程度较低

全国地质资料馆是中国馆藏地质资料数量最多、内容最全的国家级馆藏机构,收藏有我国自19世纪末以来形成的各类地质资料,以区域地质调查资料、矿产勘查资料、水工环调查资料、物化遥勘查资料、地质科学研究资料为主[5]。近几年来,馆藏数据总量更是呈“井喷式”增长,每3年实现一次翻番,有效电子文件数近3亿。然而,国内的地质调查文献资源由于受限于涉密等因素[6],服务的开放程度远远不够,这与2018年4月2日国务院发布的《科学数据管理办法》[7]中“开放为常态,不开放为例外”的原则不相符。

2.2 文献服务方式单一

文献资源作为馆藏地质资料的重要组成部分,目前服务方式主要以到馆借阅服务为主[5,8],还提供电子目录查询、部分文献资源线上阅览和全文下载服务,但总体服务方式单一、保守,与当今信息技术发展严重脱节,一方面导致用户获取信息量冗余,增加其阅读量,严重制约了用户的工作效率;另一方面也导致不能对馆藏中的海量文献资源进行充分的挖掘和利用,大大降低了文献资源的使用效能。

2.3 文献信息资源流转周期长

由于思维惯性和组织管理问题,目前地质资料工作还习惯性保留着以纸介质为主的工作模式和思维方式,地质资料在馆藏机构流转时滞大大超过法定的90天,甚至有的地质资料成为“死档”,严重制约了地质资料的社会化服务率和在线服务率。此外,地质调查文献资源中蕴含的信息繁多,涉及知识面广泛,包括基础地质情况、矿产资源信息、物化探调查结果等,数据类型多样,如正文、图、表格、公式、参考文献标注等,传统的传播方式主要以静态的纸质资料或单一PDF文件为主,造成用户面对的是大量的、无序的地质信息,不能快速从文献中获取所需的资料,查找资料经常用去整个工作周期的一半时间,大大降低了知识的利用效率。

2.4 文献信息资源加工程度低

馆藏文献承载着不同历史时期地质工作者的智慧和经验。随着中国地质调查事业的变革和发展,不仅馆藏文献资源量逐年增长,地质资料文件结构也变得更加复杂,构成一个多维度形式的信息复合体,包括相互关联的报告、文献、表格、矢量数据、图形等[9]。传统的文献目录、索引、文摘等检索形式已不能满足当前时代背景下用户对知识资源的需求。近年来,随着计算机、数据库、文字识别等信息技术的广泛应用,大量文献被转换为文本文件和数据库等电子资源,随着数字文献的大量积累,如何对文献资源进行有效的分类、组织和检索,成为具有挑战性的问题。目前通过人工方式对文献进行著录和主题(标题、关键词)标引,以提升文献检索的效率,但还不够完善,不能检索到全部的相关文献资源,而且手工的主题标引是一项费时费力的工作,单凭手动已经难以跟上文献的更新速度。

3 文献领域新技术应用

地质文献资源资源量巨大和文件结构复杂,如何从浩如烟海的复杂文献资源中发现有用和有意义的知识,成为地质工作者的迫切需求,也是地质资料工作者关注的热点问题。以网络化、数字化、人工智能化为代表的新技术为地质资料工作提供了良好的机会。

3.1 文献内容结构化

知识服务已成为当今知识经济时代的必然需求。由前文可知,很多文献至今还只向用户提供静态的PDF版本文档,极大影响了文章的再次使用。目前,数字出版领域科技论文发布的主流格式是HTML(超文本标记语言)格式[10],此格式的文档可实现文献的结构化、碎片化阅读,如用户可以根据自己的需求选择感兴趣的部分进行阅读;结构化的文献具有高效的知识组织能力以及良好的扩展性,一方面可以实现全文查询和检索,另一方面可以与文献关联,上传附件材料(supplemental material),附件材料可以是矢量数据,如短视频、MapGIS、数据表格、矢量PDF等[10]。此外,结构化的文献是实现文献内容标引、语义关联等应用的前提。

3.2 文献内容标引

随着用户对知识元层次数据资源的需求,文献标题、作者、摘要等基本信息的著录表示已经无法满足用户需求。为了表示不同领域和不同类型的知识,同时适应不同层次和不同需求的用户,在知识服务过程中就需要提供不同层次和不同颗粒度的知识[11]。如借助中图分类法和叙词表的学科分类和主题标引将文献资源通过词语、句子、段落以及文献等不同层次依次进行规范化表示,实现文献深层次的内容标引。例如,在现有的地质资料著录规范中,案卷级资料经常包括不同类型的文件级资料,每一个文件对应不同大小的知识,且分别包括文件标题、名称、分类号、作者、单位、摘要等信息,但用户在应用过程中可能需要粒度更小的知识表示,这时可以进行知识元层次内容的著录和标引,如对区域地质调查报告中地层章节的奥陶系进行标引:知识编号为0001,知识大类为地层,知识小类为奥陶系,知识类型为文本,知识级别为4等。

3.3 语义关联技术

除了利用文献著录和标引表示来进行知识粒度化外,还有大量的知识需要通过知识表示规范进行知识粒度化[11]。例如,对于“华北奥陶系”体现的知识粒度较大,如果想要了解华北地区奥陶系的详细信息,就需要细化华北奥陶系在地质演化史的地位、分布区域、岩性、古生物化石、发育矿产等。对于这些问题的回答就需要借助于语义关联来表示,首先对文献中的关键数据进行语义标注,有步骤、有目标地开展文献挖掘工作,建立多元、多维的数据表达形式,将有价值的信息全方位地展现出来,使用户信息检索和分析整理资料的过程变得程序化、网络化、智能化,帮助用户快速检索到所需的信息资源,同时可获取其他相关文献资源,大大提高用户获取知识的效率。针对文本中蕴含的语义信息建立索引,建立文本之间的语义关联,利用机器自动推理技术,实现同义词检索、关联检索等高级检索功能,通过一个检索词就能将所有相关的文献资源都显示出来,无需多次重复检索,同时可以按照下载率、引用率、完成时间等方式排序,加快检索速度的同时,为用户提供更多资源的可选性。此外,通过关联技术对网站中不同文献资源之间进行链接,能够将馆藏“死档”资料变“活”,增加其线上曝光率,充分发挥地质资料的利用价值,进而提高馆藏机构的社会化服务效能。

目前新技术已经广泛应用于科技期刊出版领域,渗透到数据资源的采集、概念识别、组织和利用等各个环节[12-13],如将数据资源内容进行加工处理,实现结构化转变;对数据资源进行语义标注,提取内容中的专业术语、技术方法、图、表、研究结果等;借助语义技术将数据资源在深层次上实现语义和概念层面的互联;使用语义出版技术实现用户之间的交流、寻求交流对象、建立合作关系等。新技术不仅可以改进用户获取文献资源的体验方式,还能够在数字化基础上进一步提升用户利用地质文献资料的功能和效率。

4 结 语

当今在互联网、大数据、人工智能等技术的迅猛发展和带动下,国内外科技期刊出版领域在生产方式、传播方法、内容服务模式等方面都发生了巨大变化。全国地质资料馆作为政府部门、企业、科研机构及高等院校等的数据资源提供者,更需要紧跟时代的发展,不断加快数据资源整合、传播与服务进程。馆藏机构以信息技术为依托,加强文献数据资源的增值服务,构建智能化的数据服务模式,是促进知识发现与创新、满足用户需求、提升服务效能的关键。综合利用数字出版技术将复杂的馆藏文献资源进行数据化、碎片化、结构化,能够系统完整地反映地质调查成果概貌,拓展地质资料服务价值链,提高馆藏资料的创新服务水平,还可以帮助用户快速获取目标知识服务,充分提高用户的工作效率。因此,利用新技术重新构建地质文献资料的服务模式,实现资源共享更加多元化的表达方式变得极为必要。

猜你喜欢

出版物馆藏资料
出版物上数字的用法(GB/T 15835-2011)
出版物上数字的用法(GB/T 15835—2011)
馆藏几件残损《佚目》书画琐记
云南省档案馆馆藏《东巴经》
Party Time
PAIRS & TWOS
JUST A THOUGHT
博物馆的生存之道:馆藏能否变卖?
2018年向全国青少年推荐百种优秀出版物目录
2017年出版物