基于元数据的数据发现和数据评价
2015-09-08赵华周国民王健
赵华 周国民 王健
[摘要]元数据在信息资源发现过程中发挥了重要作用。科学数据元数据也不例外,它为用户发现、评价和再利用科学数据提供了依据。本文在阐述科学数据和科学数据元数据内涵的基础上,对科学数据的用户需求进行了分析,重点分析了用户查找与发现科学数据的过程,此外,本文针对如何完善科学数据元数据提出建议,以促进用户对科学数据的发现和使用。
[关键词]元数据;数据发现;数据评价;用户需求:认知
[中图分类号]G250.73
[文献标识码]A
[文章编号]1008-0821(2015)04-0065-04
科学数据作为一类重要的科技资源,在人们从事科学研究和进行管理决策时是不可缺少的。科学数据的开放与共享在各领域得到了强烈的支持。然而科学数据共享问题十分复杂,宏观上涉及数据共享政策法规、共享制度和共享平台以及组织体系等多个方面,微观上涉及数据标准、元数据标准以及用户信息需求等角度。科学数据共享的核心问题是用户能够及时发现和有效利用科学数据,因此数据发现是关键。在信息管理领域,信息发现的研究一直占有重要的地位,同样在科学数据共享方面,数据发现和数据利用也是用户最为关注的话题。众所周知,元数据作为发现信息和共享信息的有效工具,在科学数据的共享中发挥着重要作用。本文结合科学数据元数据的内容构成,对用户的数据需求和用户查找数据的过程展开分析,旨在阐明元数据在科学数据发现过程中发挥的作用,并对现有科学数据元数据的不足之处进行分析,并提出相应的解决措施。
1 科学数据概述
科学数据是指科技活动或通过其它方式所获取到的反映客观世界的本质、特征、变化规律等的原始数据,以及根据不同科技活动需要,进行系统加工整理的各类数据集,用于支撑科研活动的科学数据的集合。可见科学数据与科学研究活动密切相关,既来源于科学研究活动,又可用于科学研究活动。随着人类从事的科研活动的广度与深度的增长,加之各种先进科学仪器的诞生,科学数据的数量正以指数数量级猛增。
科学数据分类方法有多种,可以按照学科进行分类,如物理数据、化学数据,人文科学数据;也可以按照数据收集方法进行分类,如观察数据、计算机模拟数据、统计数据等。美国国家科学委员会把科学数据分为三类:第一类是可重复数据,只要把与数据产生相关的方法以及变量、参数等进行存档,这类数据是可再次产生的,实验研究数据通常属于这类数据,这也正是科学研究活动中产生的最多的一类数据。第二类是观察数据,这类数据产生于特定的时间和空间,是不可再生的,通常生态领域和生物多样性领域的数据属于观察数据。这类数据只能收集1次,难以验证。第三类是统计数据,这类数据往往来自自下而上的统计,统计数据最重要的就是统计的方法、标准,以及统计的时效性。
科学数据作为高度结构化的信息资源,尽管不同学科领域的数据在存储、格式、数据处理、方法和数据需求上存在很大的区别。但科学数据具有几个共同的特点:(1)科学数据来源规范。科学数据的产生源于人们从事的科学研究活动,不论是原始数据,还是经过加工处理的数据,都是源于某项科学研究活动的开展。(2)科学数据产生方式规范。不论是观测数据,还是科学实验数据,都具备科学的数据产生方法。(3)科学数据的内容和形式具有规范性。不管是哪个学科领域的科学数据,其内容、组织与结构必定是结构化的,尽管数据的结构与形式不同,但都遵循了研究领域制定的规则。(4)科学数据具有存储和使用价值。科学数据的产生,注入了科研工作者的劳动成果,具有可再利用的价值。
2 科学数据元数据
元数据是“关于数据的数据”,作为描述信息资源的一种工具,对信息资源的内容、属性以及特征进行说明与解释,具有定位、发现、证明、评估、选择信息资源等功能。元数据除了对信息资源本身进行描述外,还包括了对信息资源获取方式、元数据维护信息的描述。国际上通用的DC元数据,对资源的描述角度包括资源内容、知识产权和外部属性3个方面,其中资源内容描述的元素包含题名、主题、描述、来源、语言、关联和覆盖范围,知识产权描述包含创作者、出版者和其他参与者与权限管理,外部属性描述包括日期、类型、格式和标识。
用于描述科学数据资源的元数据,称之为科学数据元数据。元数据对科学数据的描述应遵循于科研人员查找科学数据的过程,立足于回答几个问题:有什么数据?数据怎么样?如何组织?如何获取?怎么使用?与之相关的其他数据如何?Keith Jeffery提出科学数据元数据描述分为3个层次,第一层通常是对科学数据的一般描述;第二层元数据是科学情境元数据,反映数据的多方面属性;第三层元数据的描述粒度更细,也涵盖了科学数据更为详细的信息。Jian Qin等把元数据对科学数据的描述划分的更为详细,包括9大类:管理类,包括元数据自身信息和数据存档信息;情境类,包括与数据集相关研究项目、数据收集方法、设备等信息;描述类,体现数据来源、发布及相关信息;空间地理信息;通用信息;标识信息,便于用户识别数据的标识符和名称等;语义信息,用于描述数据内容的术语和主题分类信息;时间信息,数据内容覆盖的时间信息、数据加工处理的时间信息;技术类信息,描述数据格式以及使用的参数、模型和测量方法等信息。由于科学数据相比其他信息资源更具复杂性,因此,科学数据元数据的内容也必定更为复杂。目前,国际上已经建立多个元数据标准,比较常见的包括地理学科领域FGDC元数据标准和ISO/TC 211标准,生物多样性领域的Darwin Core元数据标准,生态学领域的Ecological Metadata Language(EML),气象领域元数据标准CF(Climate Forecast)和社会科学领域的元数据标准Data Documentation Initiative(DDI)。其中FGDC元数据标准最有影响力,使用最广泛。对上述元数据标准的内容进行分析后,可以发现元数据对科学数据的描述涵盖了三部分内容:物理特性描述,数据内容方面描述,科学数据情境方面描述。物理特征描述是指科学数据资源的大小、格式、作者、状态、存储位置、使用限制、安全限制等方面信息;数据内容方面的描述包含了资源题目、摘要、描述、所属领域、领域主题以及术语、产生方法、产生工具等信息;数据情境方面的描述包含数据来源、与之相关的研究项目信息、与之相关的学术出版物等信息。不论哪个领域的科学数据,也不论其数据存储、格式和使用存在着多大的差异,其元数据描述内容都基于这些角度。endprint
3 科学数据用户需求分析
科学数据的用户群体包括普通大众、管理者以及科研工作人员,其中科研工作者是科学数据的主要用户。通过共享科学数据,公众和管理者可以很容易地了解公共资助的科学研究结果,而科研人员则可以实现科学数据的再生产和再利用,也可以让其他研究人员对数据提出新问题。科学数据共享的最终目的不仅是让其他人利用这些数据,更是让别人不再走弯路,从而提高科研效率、节约科研成本,从而促进全社会科学研究的创新与发展。用户通过文献查找,往往会伴随着科学数据的发现,但已经发表的文献通常是对科学数据进行归纳、分析和总结的结果,是作者科研水平和知识水平的反映,属于抽象化的知识。对于学术文章所涉及到的原始数据,用户同样具有需求,这些数据不会随着学术文章的发表而终结自己的价值,相反,这些原始数据对于数据用户而言是无价之宝,来自不同领域的用户对该原始数据的再利用将会产生更大的价值。由此看来,用户查找科学数据的意图包括几个方面:(1)以数据作为研究对象,通过查找相关科学数据,对数据进行分析,产生新的研究成果,或者用于支撑自身的科研工作。(2)通过数据的查找,发现相关的研究团队、研究机构,为自身寻找潜在的合作者。(3)了解相关领域数据研究动态与趋势,开辟新的研究领域,同时还能学习到先进的数据分析方法为己所用。出于不同的目的需要,用户在理解科学数据时的侧重点也会不同。Creenberg分析了医药科学领域最知名的数据仓储Dryad的需求层次模型,该模型与马斯洛需求层次模型相对应,需求由低到高包括存储数据、发现数据、使用和分析数据3个层次,其中数据存储是最低层次的需求。对于数据用户来说,数据发现是基本需求,随着需求层次的提高,用户对数据的需求发展为使用和分析数据。当用户需求处于分析和使用数据层次时,用户需要了解数据最全面的信息。
4 科学数据用户查找和评价数据的过程分析
科学数据查找属于信息检索问题,由于科学数据属于一类特殊的信息,虽海量、分散但并非到处可见,因此用户发现数据的途径通常包括从数据生产者处或者同行处查找,从数据中心或者图书馆进行检索,从数据出版商处查找等。用户查找数据的过程,与用户查找其他信息资源的过程一样,是一个查找与评价的循环过程,用户根据需要设定查询条件进行查询,并对查到的数据进行评价,根据查询结果,不断地缩小自己的查找范围,以至于最终找到适合的数据资源。用户的整个查找过程实际上是不断地对数据资源进行评价与选择的过程。
用户可以通过数据目录、元数据等工具查找科学数据,而当用户对查询到的数据进行评价时,往往更多地依赖于描述科学数据的元数据内容。因此用户在获取数据之前,发现和评价科学数据都需要元数据的支持。支持用户查找科学数据的元数据元素包括,数据集的名称、作者、出版日期、资源链接、数据集摘要、关键词、资源类型、文件格式、使用限制、时间空间覆盖、与之相关数据集和出版物以及一些重要的时间日期等信息。这些元数据元素大部分集中在标识信息部分,这部分元数据对科学数据集的基本信息进行了描述,通过这些信息,用户能够对科学数据集获得大致的了解。其中数据集关键词、数据集标题和数据集摘要等内容,不仅仅帮助用户发现数据集,还帮助用户对数据集是否满足需要做出初步的判断。
用户判断科学数据是否可用的过程,实际上是对科学数据的相关性做出判断的过程。“相关性”是信息检索领域一个基本的概念,目前已经出现了对于文本、音乐、影像等信息的用户相关性标准方面的研究,但对于用户评价科学数据时所用的标准,目前还正处于研究探索阶段。可以确定的是用户判断科学数据相关性的依据就来自于元数据元素。科学界普遍认为,描述科学数据的元数据内容越丰富越有利于用户发现有用的数据,考虑到元数据编著的成本,以及用户查找数据的时间和精力等因素的限制,元数据元素并非是越多越好,其描述内容也并非是越详细越好。按照人类认知事物的普遍规律来看,通常会先从整体上对数据拥有大致的了解,用户首先关注于数据集标题、关键词、摘要、生产者、大小、格式、状态等元数据元素之外,如果这些信息不足以确定数据是否有用时,用户会进一步选择查看更为详细的元数据内容。此时用户对元数据的关注点会依据数据类型的不同而发生相应的改变,如对于科学实验数据,用户往往会更关心数据产生的相关方法以及变量和参数等,用户可能会对数据进行验证和分析,因此描述数据产生方法方面的元数据成了用户的关注点。对于观察数据,用户关注的是提供描述数据产生的时间和空间以及数据采集仪器等元数据内容,而对于统计数据,用户关注更多的是统计机构的权威性和统计数据的可靠性。此外,由于相关性的判断具有主观性,用户在判断数据是否相关时,还会受到个人偏好、知识水平、表达能力和判断能力等因素的影响。相比数据来源的可靠性,也许有的用户更青睐于把数据集更新程度作为一个判断标准,也可能有的用户会把数据集是否容易获取作为判断标准。科学数据作为一种重要的信息资源,有必要借鉴其他信息资源领域相关性标准的研究方法与理论,对用户判断数据相关性的标准以及判断机制进行深入的探讨,在此基础上,针对用户的需求,完善科学数据资源组织,促进数据的发现与使用。
5 科学数据元数据改进与完善
科学数据元数据具有管理数据、发现数据、评价和使用数据的功能。数据用户通过检索数据中心或者图书馆的数据资源,查询到一系列的信息,这些信息均以元数据元素的组合形式呈现在用户面前,为用户判断元数据所描述的数据是否符合自己的信息需求提供参考。因此对用户而言,元数据主要发挥数据发现和数据评价的功能。因此为满足用户的信息需求,提高用户发现数据和利用数据的效率,需要从完善与改进科学数据元数据上着手。
(1)对于科学数据属性的描述不够全面,例如并不是在所有的标准中都涉及到了数据集使用信息,有的标准只是提到了使用限制和使用方法。其实在用户对数据集可用与否做出判断时,还会参考数据的使用历史和引用信息等。还比如大部分元数据标准中没有包含对数据采集的描述,有的标准中虽有提及,但该项内容并不是必选项,也有的元数据标准只是把数据采集信息揉合于数据集摘要信息的描述中,这对于用户从海量的信息中,提取出这个信息较为困难,远不如把数据采集单列出来呈献给用户效果好。
(2)由于科学数据元数据本身复杂于文本信息元数据,元数据元素数量多,用户往往只能先通过查看核心元数据来判断目标数据集是否相关,是否可用。当用户检索到的元数据记录较多时,往往不会浏览每个元数据元素,因此元数据元素的排列顺序显得尤为重要,此时需要把关键的元数据元素放在靠前的位置,通常指能够反映数据集内容和质量的元数据元素置于靠前的位置,如数据集题目、摘要、关键词、关于数据集的说明等信息。
(3)缺乏第三方元数据。元数据的产生通常由专业的信息资源专家来完成,或者由信息资源的作者自己完成,不论是信息管理专业人员还是信息资源的作者,他们理解信息资源的角度与用户必定存在不同之处,且他们的认知过程存在着很大的差别。由此,由用户来完善元数据、改进元数据已经成为一种趋势。目前在图书馆领域元数据中,专门出现了评价类元数据,其内容涉及了同行专家对信息资源的评价、用户使用信息后的反馈与评价信息等,尤其是在教育信息资源方面,用户在评价和选择资源时往往很依赖这些评价类元数据内容,也叫第三方元数据或注释类元数据。而在科学数据元数据中,还没有出现这些内容。实际上,不少科学数据是以数据产品的形式出现,同行专家评价信息和用户对资源的使用评价,在用户做出选择使用数据前通常也会发挥着一定的作用。
6 总结
用户通过元数据发现数据和评价数据过程,也是用户对科学数据的认知过程。因此在整合科学数据资源时,对元数据的完善仅仅从科学数据的资源特性角度着手远远不够,还需要从分析用户对科学数据的认知点着手,明确用户判断数据相关性的标准,分析用户对元数据的关注点,按照这个原则来对元数据内容进行完善。本文的研究只是借鉴了人类现有的对其他类型信息资源的认知研究,而对于人们对科学数据的认知方面的探讨,更多地需要大量的实证研究来支持,以探明用户对这类特殊信息资源的认知规律,这正是此方面研究今后的努力方向。
(本文责任编辑:郭沫含)endprint