考试信息数据集元数据规范研究
2012-12-25天津市教育招生考试院史兴键王泽来
□天津市教育招生考试院 史兴键 王泽来
考试信息数据集元数据规范研究
□天津市教育招生考试院 史兴键 王泽来
为实现对考试数据集的规范描述,本文在国内外相关研究的基础上,建立了适合考试领域的元数据规范,该规范有核心元数据和参考元数据两个部分,主要由7个元数据子集构成。其中核心元数据为18个实体或元数据元素,参考元数据为28个实体或元数据元素。该元数据规范的建立将会进一步促进考试数据资源的有效交流与使用。
元数据;数据集;考试信息
随着信息化的发展,各种以考试数据为处理目标的信息系统不断涌现,积累了总量可观的考试业务数据。由于这些数据分别由相互孤立的应用系统产生和管理,其服务范围常常局限在个别应用内部,使得不同应用数据库之间存在着大量的重复数据,但由于不同应用系统之间缺乏统一的数据定义标准,导致这些应用数据的共享、利用效率较低。
近年来,随着公众对于考试数据资源需求的不断增长,以往较为零碎的数据服务已经不能满足实际的需求。将数据整合在一起,“数据集”这种数据组织方式得到了广泛认可和应用。“数据集”又称为资料集、数据集合或资料集合,是指一种数据集合方式,它通常以一定的主题被标识、应用。
考试类数据集在实际应用中,使用者必须提前了解关于数据的多方面信息,才能确定数据集的利用方式。因此,一套元数据规范的建立,对于数据集的建设和使用将是十分必要的。
用来对数据进行说明的数据就可以被称为元数据,诸如字段、记录、数据库物理文件等都可以被作为说明的对象。本文在对招考数据库集说明要求分析的基础上,建立了适合考试领域信息数据集的元数据规范。该规范的建立促进了考试领域数据集描述的规范化和标准化,确保了考试数据资源的整合、发布、管理和应用的统一。
为了使数据用户更加准确、清晰地了解数据集的概貌,本文元数据规范主要对数据集外部整体信息进行描述。考试信息数据集规范化描述主要包括:
标识信息:如各类考试数据集名称、标识等;
内容信息:对各类考试数据集内容的描述;
质量信息:对各类考试数据集来源、质量等描述;
发布信息:对有关考试数据集发布及所能提供的数据服务等描述;
维护信息:对有关考试数据集更新及维护等描述;
限制信息:对各类考试数据集访问及使用限制等描述。
以上即为考试信息数据集元数据规范的基本内容。
一、对元数据的结构层次和内容设计的描述
1.结构层次规划
这里按照“子集”、“实体”和“元素”三个层次来组织元数据内容。
元数据中具有相近性质的集合被称为“子集”。它还包含了性质相近的“元素”和“实体”等。
“实体”是指多个关系较为紧密的“信息集合”。如在实践当中,“考试参与者”只是一个抽象的数据概念,将类似“姓名”、“性别”、“身份证号”、“联系电话”、“通讯地址”等数据明确后,实际使用者才能够真正表明其实际含义。这里的“考试的参与者”就是一个“实体”,而“实体”则可以进一步包含“元素”和下一层次的“实体”。
在规范中,描述数据的最小单位或最基本信息单元被称为“元素”。例如,数据集名称、负责单位和邮政编码等。
2.规范内容框架设计
为了满足针对不同考试领域各类数据集的描述需求,同时兼顾数据中通性和个性的要求,元数据规范的内容框架将包含核心元数据和参考元数据两个部分。
核心元数据提供对数据集的最基本描述,它包括对目标数据集的基本内容和标识的描述。
参考元数据就是所有全部元数据内容,即除核心元数据外通常我们还需要根据不同需求来使用参考元数据中的其他内容对考试数据集进行详细描述。
在实际的元数据使用中,我们发现还必须使用引用信息和代码表来进一步规范和简化元数据的设计过程。
实际使用过程中对考试数据集的描述会重复使用某些数据项目,而这些信息数据集合则被称为“引用信息”。例如,有两个实体“考试组织方”和“考试承办方”,对它们的描述中都包含“单位名称”、“联系人”、“联系电话”、“通讯地址”、“邮政编码”和“电子邮件地址”等一系列“子元素”。为了使用方便并节省存储空间,我们定义了一种叫做“负责方”的数据类型,提供给“考试组织方”和“考试承办方”这类“实体”进行引用。
元数据的“子集”、“实体”与“元素”的描述如表1所示。
表1 描述符
上表中的“约束”是指:当进行元数据编录时,需要根据其内容属于必须、可选或条件选编录。“约束”还具有如下规则:可选的“子集”或“实体”可以包含必选的“实体”或“元素”,但这里的“实体”或“元素”只有当上一级可选“子集”或“实体”被选择时才可以成为必选;如果上一级可选“子集”或“实体”未被选择,则它们包含的必选“实体”或“元素”也不选择。
二、对元数据规范的简要介绍
1.“子集”的建立
下面我们将建立7个“子集”,图1为即为主要内容框架。图中带箭头的虚线表示对“引用信息”的使用,其中涉及到元数据标示、数据集标示、限制信息和维护信息等四个子集。
图1 考试信息数据集元数据的七个子集
2.核心元数据的确定
根据前面的研究,我们确定的核心元数据共有18个“元素”或“实体”。包含7个必选的“元素”或“实体”,11个可选的“元素”或“实体”,具体内容见表2。从表中我们可以看到,标识、内容及发布信息等均为核心元数据。而恰恰数据使用者关心这些数据集的基本描述内容。尤其是其中的必选“元素”和“实体”部分,数据使用者只要清楚这些内容,就完全可以确定数据集是否满足需要。
表2 核心元数据及其位置
在上表的核心元数据中,包含3个“实体”,它们是关键词说明、数据集分类及数据集发布格式,同时它们分别包含若干“元素”。
3.参考元数据的确定
参考元数据就是所有子集包含“实体”与“元素”的全体,它也包括了核心元数据,即为所有元数据的全集,同时它也为核心元数据的参考和扩充提供有力的支持。
三、结论
为使考试领域数据集的描述更标准化,提供元数据编录依据,我们对考试信息数据集元数据规范进行了研究,通过该项研究可以使考试数据资源的描述、发布、管理与应用更加统一和规范。目前在研究的基础上,我们借鉴相关研究成果[7-13]已经完成了对部分考试数据集的改造工作,使其能够更加完善和规范。
[1]中国科学院计算机网络信息中心科学数据库中心.中国科学院科学数据库核心元数据规范[DB/OL].http://support.csdh.cu/training2004/core_metadata_2.pdf/[2008-06-09].
[2]国家基础地理信息系统(NFGIS)元数据标准草案(初稿)[EB/OL].http://nfgis.usdi.gov.cu/nfgis/chinese/bz/mt0.htm.
[3]闵友钢,梁晓雯,蒋慧钧.基于广电行业版权管理的元数据标准探讨[J].现代电视技术,2007(06).
[4]胡仁昱,朱建国.财会信息资源元数据标准的研究[J].会计研究,2008(07).
[5]闰伟,杨洪山,孙莉.政务信息资源描述元数据标准的制定研究[J].计算机与信息技术,2005(10).
[6]杨炜鸿,孙震宇,冯利.通用数据标准制定方法的研究[J].长春理工大学学报:自然科学版,2007(03).
[7]方南晖,潘云.企业级数据共享研究——数据标准的制定[J].计算机工程,2005(S1).
[8]黄富革,周晓芳.高校信息化数据标准的制定与实施[J].企业科技与发展,2009(02).
[9]高复先.信息资源规划系列(四)数据标准与数据管理[J].中国教育网络,2006(11).
[10]郑西川,张建国.临床信息系统数据标准及其应用[J].中国数字医学,2007(01).
[11]吕轶凡.浅谈高校数字化校园建设中信息化标准的制定[J].北京电子科技学院学报,2007(03).
[12]梁艺军,陈子建.高校财务数据标准的建立[J].中国教育网络,2007(09).
G433
项目名称:国家教育部考试中心教育考试“十一五”规划2009年度课题。项目号:2009JKS3025。