APP下载

轨道交通知识服务平台暨数字图书馆的设计与实现

2019-04-03李雪山郭肖肖姚冬冬

铁路计算机应用 2019年3期
关键词:多语种检索个性化

李雪山,郭肖肖,姚冬冬

(中国铁道科学研究院集团有限公司 科学技术信息研究所,北京 100081)

科技信息资源是支撑科技创新、提高创新能力的重要战略性资源。近年来,中国铁路技术的不断发展、中国高铁走出去步伐不断加快,对科技创新和产业化发展的及时性、有效性、全面性提出了更高要求,需要快捷、系统地获取各类国内外行业科技信息,及时把握行业科技发展动向与趋势,更好地了解市场竞争对手并洞察市场机会。

经过多年的信息化建设,围绕铁路科技信息资源建设工作,全路已建成数字图书馆和中国铁路科技与经济信息网,但随着科技信息资源的膨胀式增长、大数据技术及网络技术的快速发展以及人们对信息获取利用要求的不断提高,现有系统存在的问题也日益凸显[1]。主要表现在:(1)资讯信息缺乏广度和深度,用户在查找资源时仍需逐个网站搜索、甄选有效信息;(2)缺乏对竞争对手行业动态和技术热点等方面的信息汇聚;(3)受限于多语种,用户无法及时了解国内外行业动态;(4)相较于到图书馆借阅文献,用户更倾向阅览电子文献;(5)因IP限制原因,用户在外出差或在家查阅资料时不能及时获取相关信息。

为解决上述关键问题,项目组以中国铁路科技与经济信息网改版为背景,结合竞争情报思维、专题服务运行模式,设计并实现轨道交通知识服务平台暨数字图书馆,旨在为用户提供更加全面、个性化、精准化的科技资源信息服务。

1 方案设计

1.1 建设目标

平台在设计和建设过程中基于铁路科研创新的需要,坚持需求驱动、持续发展,通过有效的资源整合、高效便捷的资源获取、个性化信息推送按需配置情报专题等方式,使目标用户能有效地获取所需信息,实现以资源服务为基础的,专业化、个性化、专题化、精准化的情报服务体系。具体目标如下:

(1)借助自动采集技术对企业内部信息、外部宏观环境信息、外部竞争环境、外部行业动态、技术创新热点等进行多维度监测,实现网络信息自动采编与发布;

(2)整合内外部信息资源(自建、外购、网络、内部系统资源等),实现多源异构资源的统一存储和检索展示[2];

(3)提供外文资源的在线翻译,实现单一语种检索词入口的多语种资源统一检索展示;

(4)提供情报专题定制服务,实现对行业动态、技术前沿、竞争对手等的持续动态跟踪;

(5)实现个性化推荐、智能推送等精准化情报应用功能;

(6)培养和提升研究人员的情报利用意识和获取能力,提高铁路科技信息流转和情报产出效率。

1.2 建设方案

根据轨道交通知识服务平台设计目标,系统主要由资源收集整理、翻译加工处理、资源存储和资源服务等4部分构成,如图1所示。

图1 系统整体建设方案

1.2.1 资源收集

针对不同资源采取不同的手段进行收集。

(1)对于国内外相关资讯网站,主要包括国内外轨道交通企业门户、专业的行业资讯网站等。这些网站具有数量多、技术不一、风格多样、多语种、采集困难的特点,在此系统综合利用商业采集软件[3]和基于Python技术[4]自主开发的采集工具以及人工收集的方式进行数据采集,实现轨道交通行业动态、热点资讯的及时获取;

(2)对于自建数据库资源,主要包括行业内刊、图书馆馆藏特色资源。这些资源大多以纸质形式存在,需要耗费较多的人力来进行资源加工,在此系统通过建立数字化资源加工系统开展纸质资源的扫描、OCR识别、元数据著录、数据存储发布等,实现纸质资源电子化,提高馆藏资源服务广度;

(3)对于外购商业数据库资源,主要包括知网、万方、维普等数据库,系统采用元数据级整合方式实现多来源数据库的信息融合[5]。

1.2.2 资源加工

借助计算机辅助翻译技术、自动标引分类技术、自然语言处理技术实现信息资源的自动翻译、分词断句、实体提取、分类标引、实体关联等标准化、规范化处理,以便于数据有效管理和利用。

1.2.3 资源存储

系统借鉴dspace机构知识库[6]相关思想,实现专题内容自定义及各类型资源元数据非编程性动态定制、扩展功能。即系统可预先建立元数据集,对各元数据字段类型、长度、格式、是否建立索引、是否显示等特征进行设定,在添加不同资源类型(如期刊论文、资讯、报告、专利等)时,可以从元数据集中选择相应字段作为具体描述字段,进而实现多源异构资源的统一存储和检索。

1.2.4 资源服务

(1)实现资源服务系统基本的功能,如简单检索、高级检索、专业检索、单库及全库检索、资源下载等;

(2)实现专题化、个性化服务,用户可根据自身从事或关心的专业、研究方向、科研课题等,通过对知识点进行分解,配置专题,即可实现对竞争对手、热点技术、行业动态等的自动跟踪、精准个性化推送功能[7];

(3)基于用户专业或行业需要实现个性化主题门户网页定制,提供企业级资源专题定制服务;

(4)通过开发APP、微信公众号、订阅号等,拓展用户信息获取渠道,为用户提供更加方便快捷的情报信息服务。

2 系统实现及资源特色

2.1 系统实现

系统在借鉴百度、淘宝等大型企业软件系统结构的基础上,结合SOA业务模型采用Hadoop云计算架构,以Webservice的方式提供接口;采用HDFS大数据分布式文件存储系统实现海量全文数据的管理;采用Nosql的Hbase非关系型数据库实现元数据管理;采用SOLR检索技术[8],支持多字段的组合查询;基于Sql库的用户行为记录和MR机器学习算法,以实现精准化个性化情报服务。

采用DotNet软件开发平台进行了开发实现。

2.2 系统资源及主要特色

2.2.1 系统数据资源概况

系统资源主要分为网络资源、商业数据库资源、自建数据库资源3部分,如图2所示。网络资源主要包括国内外轨道交通行业门户网站资讯;商业数据库资源主要包括知网、万方、维普等商业数据库的期刊、学位、会议等文献资源;自建数据库资源主要包括中外文文摘、中外文全文、铁路热点专题等。

2.2.2 主要特色

(1)实现了对轨道交通行业多来源网络情报信息的实时获取追踪。

系统结合竞争情报思维,将情报规划、信息收集、信息加工、信息分析、情报生产与传播流程融入平台,借助自动采集技术实现针对企业内部信息资源、外部宏观环境信息、外部竞争环境信息、外部行业动态信息、技术创新热点信息等多维度的监测,使用户能及时获知最新行业动态、技术前沿信息、市场变化等信息,辅助实现科研和管理决策[9]。

图2 系统资源概况

(2)实现了多源异构资源元数据级整合及一站式检索。

平台以资源建设为基础,在建立统一数据标准的基础上实现了多来源各类型资源的融合,包括自建数据库、商业数据库、相关网络资源等,涵盖资讯、期刊、学位、会议、标准、成果、特色资源等多种文献类型。平台最终实现了上述多来源数据的统一存储、检索、展示,实现了同一资源的多渠道下载,从搜索范围、搜索效率、搜索质量3方面提高了检索结果的准确性和全面性,提高了用户体验。

(3)实现了多语种资源统一检索。

针对英、日、俄、德、法等多语种带来的统一存储和检索问题,平台通过嵌入自动翻译软件实现对资源的自动翻译,为用户提供了单一语种检索词入口的多语种文献检索服务,并提供中外文对照展示。针对自动翻译不准确、翻译质量不高等问题,平台提供在线编辑、校对功能,以提高多语种资源的翻译、检索效果。

(4)开展了铁路情报多样化服务模式。

平台以信息服务为核心,重点提供面向用户专业、研究领域、热点前沿技术等方面的专题服务,提供面向用户研究过程的场景化服务,以及面向专业领域的热点和趋势分析服务。为用户提供诸如知识订阅、个性化推荐、多终端智能推送、行业动态监测简报、行业热点趋势监测简报等信息服务,满足用户个性化信息需求。专题服务界面,如图3所示。

图3 专题服务

3 结束语

铁路科技文献与创新服务平台以铁路科技资源整合为基础,以提供全面、专业、及时、高效的情报资源服务为核心,以提高铁路科技创新能力和竞争力为目标[10],是转变铁路科技文献服务模式的一项有益尝试。

目前,轨道交通知识服务平台暨数字图书馆基本功能已经实现,并已开始在铁科院、轨道交通相关单位推广使用。平台提供的网络信息动态采集监测、多源异构资源统一搜索、专题定制、信息推送等功能,可为用户提供更加全面、专业的信息服务,为铁路行业提供全面权威的战略决策支撑和业务情报支持。

未来,随着平台资源的丰富、功能的扩展、运行模式的变革,还需研究制定符合平台发展的运行管理机制,规范资源采购、功能使用、服务模式、收费标准,并根据平台未来跨系统、跨单位协调资源整合和服务的需要,建立健全文献平台统筹协调机制[11],促进平台健康可持续发展。

猜你喜欢

多语种检索个性化
青岛市多语种应急语言服务现状与需求调查研究
语联世界,言通天下
藏语称谓在多语种史料中的行用路径与语义演变
一种融合PageRank和PersonalRank的多层个性化推荐算法
坚持个性化的写作
瑞典专利数据库的检索技巧
在IEEE 数据库中检索的一点经验
一种基于Python的音乐检索方法的研究
上汽大通:C2B个性化定制未来
同桌宝贝