APP下载

开放社会经济信息的元数据研究——以开放社会经济信息集成揭示与服务系统为例

2015-06-21丁晓芹

现代情报 2015年10期
关键词:开放获取元数据

徐 雯 邵 荣 丁晓芹

(中国科学院武汉文献情报中心,湖北 武汉430071)

开放社会经济信息的元数据研究——以开放社会经济信息集成揭示与服务系统为例

徐 雯 邵 荣 丁晓芹

(中国科学院武汉文献情报中心,湖北 武汉430071)

〔摘 要〕社会经济信息与科技创新密切相关。建立支持产业发展、技术创新和成果转化的技术、行业、经济和社会信息资源支持体系 ,满足用户需求 ,有效支持用户获得经过遴选和评价的技术、行业、经济和社会等信息 ,为用户提供全面的信息支撑显得尤为重要。本文以开放社会经济信息的元数据为研究对象 ,对网络信息资源、报告、新闻资讯、政策法规、统计数据、生产技术等资源进行了调研。

〔关键词〕开放获取 ;社会经济信息;元数据 ;信息组织 ;揭示与服务系统

经济信息 (Economic information)是指社会经济活动所产生的、反映经济活动并为其服务的消息、事实、数据、知识等[1]。狭义的概念只包含经济活动直接反映出来的信息,而广义的经济信息则是包含了经济活动所涉及的政治、法律、科学、技术、自然环境等各方面的信息。开放社会经济信息资源指的是能够开放获取 (Open Access)的社会经济信息 ,包含技术信息、政府信息、市场动态、行业资讯、统计数据、各类相关报告、科研项目信息等。这之中既包括资源的集合也包括资源的内容。

随着市场经济的发展,社会经济信息日趋成为科技创新活动的重要组成部分。中国科学院 “创新2020”方案明确提出今后要把面向区域经济和产业发展需求,开展产业前沿技术创新、技术集成创新、工程化研发和成果转移转化作为重要工作任务的战略部署[2]。针对从事应用研究、转换型研究和成果转移转化工作较多的研究机构对于社会经济、市场信息需求愈来愈强烈的现状,中国科学院国家科学数字图书馆二期启动了 “开放社会经济信息集成揭示与服务系统”项目,实现对相关信息资源的发现、遴选、采集、描述、组织、利用及长期保存。本文以开放社会经济信息资源为研究对象,对相关的元数据进行了研究,尝试建立准确完善的各类社会经济信息的元数据描述规范 ,使用户能够在纷繁芜杂的各类经济信息中快速准确获得有价值、可利用的开放资源。

1 开放社会经济信息元数据规范的现状

参考元数据的研究现状,科技部科技基础条件平台专项资金项目 《我国数字图书馆标准规范建设》中的子项目成果——《网络资源元数据规范》[3]基于DC (Dublin Core)元数据在资源集合的层面做出定义 ,但没有对具体的资源内容进行描述。国家科技图书文献中心制定的 《NSTL文献资源加工规范》中有 《科技报告描述元数据规范》[4]是针对资源内容的元数据规范,但主要针对的是科技报告,社会经济类的报告和其它资源没有专门的描述。

由于社会经济信息具有形态多样、种类繁杂、渠道众多等特点,并且受传统资源建设观念的影响,绝大多数图书馆尚未对这类信息资源进行系统、有效的发现、组织和保存。基于对零散信息、非结构化信息描述不足的现状 ,研究制定有针对性的开放社会经济信息的元数据描述规范就显得十分重要和迫切了。

2 开放社会经济信息资源调研及分析

开放社会经济信息的资源调研与集成揭示主要分为两个层级:(1)资源集合层级 ,资源集合能够让用户大量发现结构化信息资源,对资源集合的揭示可以认为是将大量资源作为一个整体描述。例如我们可以将网站上的各个栏目理解成资源集合,那么网站就是对资源集合的集合;同理,商业数据库通常包括各种类型的统计数据,每一种统计数据可以看作是一个资源集合,那么该数据库就不难理解为集合的集合了。(2)资源内容层级,具体来讲是指一条新闻 ,一篇研究报告,一部法规,诸如此类具体的某一条信息。对资源内容的集成揭示就是将这类单个资源集成为目录或列表的形式。如 “开放社会经济集成揭示与服务系统”中 “新闻资讯”、“政策法规”、“研究报告”等栏目 ,这些都是由单个文档组成的列表。此外,学会、协会、政府机构组织产出的报告集也可以归于此类,报告集目录是典型的资源内容集成揭示对象。

2.1网络资源集合的调研

开放社会经济信息的资源集合包含并不仅限于行业学会/协会、机构组织网站、经济信息门户与学科导航、统计数据库集合、社会综合信息资源集合等,对资源集合进行集成揭示的方式有:建立集合目录;用技术方式实现集合的统一检索;在对集合进行统一的描述和揭示的基础上 ,实现统一检索[5]。

2.1.1行业学会/协会网站

以International Solar Energy Society[6](国际太阳能学会)网站为例 ,国际太阳能学会是一个研究和发展太阳能利用中的信息中心,该学会采用实际项目、技术传播、教育培训、组织会议等支持会员国开发可再生能源。网站包含新闻资讯 ,研究报告,项目计划等几类资源。

2.1.2政府机构网站

以U.S.Food and Drug Administration[7](美国食品药品管理局,简称FDA)网站为例,FDA的职责是确保美国本国生产或进口的食品、化妆品、药物、生物制剂、医疗设备和放射产品的安全。在国际上,FDA被公认为是世界上最大的食品与药物管理机构之一 ,其它许多国家都通过寻求和接收FDA的帮助来促进并监控其该国产品的安全。FDA的网站有非常丰富的信息资源 ,新闻资讯、研究报告、食品药品信息等。

2.1.3经济信息门户与学科导航

以中国经济网[8](简称中经网)为例,中经网是国家级重点新闻网站 ,以经济报道、资讯传播和经济服务为主要发展方向 ,是目前中国境内最大最权威的综合经济类网络媒体。中经网拥有财经证券、产业市场、国际经济、区域经济、时政社会、文化、教育、时尚等内容板块 ,下设宏观经济、理财、消费、股市、外汇、银行、保险、食品、农业、能源、房产、汽车、家电、通讯和IT等涵盖经济生活各领域的综合频道100多个。

2.1.4统计数据库网站

以中国国家统计局数据库[9]为例 ,国家统计局数据库包含月度、季度、年度数据,以及地区数据、普查数据、国际数据六类统计数据 ,近800万笔数据。月度数据主要有居民消费价格指数 (CPI)、工业生产价格指数 (PPI)、商品零售价格指数、规模以上工业生产、固定资产投资、房地产开发投资、社会消费品零售总额、对外经济贸易、交通运输、邮电通信、采购经理指数 (PMI)、财政、金融。季度数据主要有国内生产总值、农业、工业、建筑业、城镇居民收入与支出、农村居民收入与支出、固定资产价格指数、农产品生产价格指数。年度数据包括综合、国内生产总值、人口、就业人员和工资等27个领域的数据。地区数据涵盖了全国31个省 (区、市)以及部分城市主要经济指标。

由上述调研情况来看这几种类型的资源集合虽然描述对象有些许差异 ,但又涵盖许多共同点,所以网络资源集合的描述会相对比较简单 ,如果制定合理,多种类型的网络资源集合可以使用同一种元数据描述规范。

2.2网络资源内容的调研

开放社会经济信息的资源内容包含并不仅限于信息报道、研究报告、统计数据、政策法规、生产技术信息、分析评论等。信息报道又涵盖行业资讯、市场动态、金融信息、经济贸易、供求信息、新闻动态等 ;研究报告包括政府机构报告、行业学协会报告、研究机构公司报告、咨询公司的市场调查报告、行业分析报告、市场预测报告、投资价值分析报告、券商报告、技术报告、战略报告等;统计数据类资源包括年鉴、年报、行业统计数据、贸易统计、专家技术人员信息、公司厂商信息、市场产品信息、价格信息等。生产技术信息则包括各类专利、标准、工艺流程、产品规范等。

2.2.1研究报告

以World Health Organization(世界卫生组织 ,简称WHO)网站的一篇研究报告 《Global status report on alcohol and health 2014》[10]为例 ,网站上仅揭示了报告的题名、摘要等信息,没有将报告与其责任机构相关联,报告对应的行业分类、报告字数、页数等相关信息也不清楚。

2.2.2信息报道、政策法规、分析评论等

以生物谷网站的一篇新闻 《中国首个生物资源 “样本库目录”上线》[11]为例 ,元数据的描述只有题名、来源与正文 ,许多重要的关联信息如作者、关键词、行业分类等信息都没有,如果这些信息不完整,将很难在系统中实现自动分类与标引。

2.2.3生产技术

生产技术中的专利和标准都有专门的描述规范,也是结构化程度相当高的一类资源,只需要在已有元数据的基础上扩展一些与行业分类、数据来源相关的字段就比较适应整个系统的要求了。除了这两种资源之外,其他的例如技术报告、制备工艺、技术成果等生产技术信息,则需要根据资源本身的特点灵活应用。

2.2.4统计数据

统计数据受统计口径、发布单位不同等各种因素的影响,呈现效果也多种多样 ,如何将这些零散的信息整合到服务系统中,也需要设计繁简适度的元数据描述规范 ,对数据的来源、数据的分类 ,数据的体量等重要信息进行描述。

2.2.5公司机构

公司机构信息是社会经济信息中十分重要的一类,竞争公司的商情、原材料及产品定价、行业内的商业信息也是用户最想掌握的核心资源。这样的信息同样具有零散、芜杂、不规律的特点,集成揭示这一类信息到服务系统中为用户所用,也需要设计相应的描述规范。

从以上资源内容的调研情况分析来看,开放社会经济信息的资源内容类型复杂,不同类型的资源又有其特殊的描述维度,很难遵循同一种描述规范。为了能够清晰准确地描述每一种资源 ,应该针对它们设计不同的元数据描述规范。

3 开放社会经济信息元数据描述集设置

基于DC的网络资源元数据描述规范能够满足用户的基本要求 ,但标引的细致度与完整性有所欠缺,资源集合与资源内容间没有产生有机的联系,资源集合所包含的具体内容类型无法清晰表达 ,资源内容的特征也没有很好的体现。因此在现有描述规范的基础上可以做适度的扩展 ,既能将网站与内容相关联 ,又可以体现不同类型资源的特征。

3.1网络资源集合元数据描述规范

网络资源元数据描述规范属性集在已有字段的基础上扩展了一些特殊字段来描述资源集合的内容类型属性、资源集合涵盖的具体内容等 ,更适合开放社会经济集成揭示与服务系统的用户需求,如表1所示。

表1 网络资源元数据描述规范属性集

表1 (续)

3.2资源内容元数据描述规范

根据调研结果和不同类型资源内容的形式特征,遵循用户需求原则,参考影响元数据质量的几大维度,即完整性、准确性、规范性、惟一性、一致性、及时性、有效性、适用性、可维护性、关联性[12],对字段进行了扩展(如表2~表7所示)。

表2 研究报告元数据描述规范属性集

表3 信息报道、政策法规、分析评论元数据描述规范属性集

表4 生产技术——专利元数据描述规范属性集

表4 (续)

表5 生产技术——标准元数据描述规范属性集

表6 统计数据元数据描述规范集

表6 (续)

表7 公司机构信息元数据描述规范属性集

4 结 语

开放社会经济信息与科技创新密切相关,随着研究的深入和信息技术、网络技术的迅猛发展,开放社会经济信息的内涵与外延也将不断扩展和完善。该如何进一步去建立准确、完整、适用的元数据规范 ,扩大资源数量与提升资源质量来帮助用户获取有价值的开放社会经济信息还需要更多的思考与实践。

参考文献

[1]孙更新 .经济信息检索概论[M].武汉 :武汉大学出版社 ,2011:2-6.

[2]中国科学院 .科技发展新态势与面向2020年的战略选择 [R].北京 :科学出版社 ,2013.

[3]《我国数字图书馆标准规范建设》课题组 .网络资源元数据规范 [EB].http:∥cdls.nstl.gov.cn/2003/Whole/TecReports.html#allreports,2007-01-19.

[4]国家科技图书文献中心 .科技报告描述元数据规范[EB]. http:∥spec.nstl.gov.cn/specification/index.php?title=%E7% A7%91%E6%8A%80%E6%8A%A5%E5%91%8A%E6%8F% 8F%E8%BF%B0%E5%85%83%E6%95%B0%E6%8D%AE% E8%A7%84%E8%8C%83,2009-11-09.

[5]宋文 ,傅红梅 ,路纳新 ,等 .文献资源集成揭示的思路与实践[J].图书情报工作 ,2008,52(4):93-96.

[6]International Solar Energy Society[EB].http:∥www.ises.org/index.php?id=2,2015-07-28.

[7]U.S.Food and Drug Administration[EB].http:∥www.fda.gov/,2015-07-28.

[8]中国经济网 [EB].http:∥www.ce.cn/,2015-07-28.

[9]中国国家统计局数据库 [EB].http:∥data.stats.gov.cn/,2015 -07-28.

[10]World Health Organization.Global status report on alcohol and health 2014[EB].http:∥www.who.int/substance-abuse/publications/global-alcohol-report/en/,2014-05-12.

[11]生物谷 .中国首个生物资源“样本库目录”上线[EB]. http:∥news.bioon.com/article/6671602.html,2015-07-27.

[12]程颖 .数字资源元数据质量管理的研究与探索 [J].图书馆 ,2015,(7):66-69.

(本文责任编辑:郭沫含)

・信息资源开发与利用・

Research on the Metadata of Open Socioeconomic Information——Taking Revelation and Service System of Open Socioeconomic Information as an Example

Xu Wen Shao Rong Ding Xiaoqin
(Wuhan Documentation and Information Center,Chinese Academy of Sciences,Wuhan 430071,China)

〔Abstract〕Socioeconomic information is closely related to the innovation of science and technology.It is very important to provide users with comprehensive information support that meet their needs.The system builds support for socioeconomic information of industrial development,technology innovation and transformation through the selection and evaluation.This paper analyzed metadata of Open Socioeconomic Information,and investigated the network information resources,reports,news,policies and regulations,statistical data,production technology and other resources.

〔Key words〕open access;socioeconomic information;metadata;information organization;revelation and service system

作者简介 :徐 雯(1981-),女 ,馆员 ,硕士 ,研究方向 :开放社会经济资源建设与揭示。

基金项目:本文系中国科学院国家科学数字图书馆二期项目 “开放社会经济信息集成揭示与服务系统”的研究成果之一。

收稿日期:2015-08-10

〔中图分类号〕G250.73

〔文献标识码〕B

〔文章编号〕1008-0821(2015)10-0055-07

DOI:10.3969/j.issn.1008-0821.2015.10.011

猜你喜欢

开放获取元数据
浅谈MOOC与信息素养教育
财会信息资源元数据标准的研究
基于开放获取的图书馆科学数据资源与服务