网络农业信息资源元数据研究及其著录管理系统开发
2009-07-14魏清凤贺立源黄魏余秋华
魏清凤 贺立源 黄 魏 余秋华
〔摘 要〕针对目前网络农业信息利用、管理及共享存在的问题,提出了基于元数据和标准化信息著录管理系统的解决方案。通过参考DC、FAO农业元数据元素集等标准及其制定策略、方法,根据网络农业信息的特点,确定了其核心元素、细化元数据、复合元数据。并利用“华中农业信息网”资源平台,开发了自动编码信息著录系统。本研究对元数据描述、分类组织、质量控制及自动著录等环节统筹考虑,对网络农业信息资源高效利用、科学管理和交换共享具有较大的理论意义和实用价值。
〔关键词〕网络农业信息资源;元数据;著录
〔中图分类号〕G201 〔文献标识码〕C 〔文章编号〕1008-0821(2009)02-0052-05
Study on Metadata of Web Agricultural Information
and Register System DevelopmentWei Qingfeng1 He Liyuan2 Huang Wei2 Yu Qiuhua2
(1.Institute of lnformation on Science and Technology of Agriculture,Beijing Academy of
Agrieulture and forestry Sciences,Beijing 100089,China;
2.College of Resources and Environment,Huazhong Agricultural University,Wuhan 430070,China)
〔Abstract〕A solution based on metadata and register system is proposed to solve the problems those exist in the use of web agricultural information,management and sharing.The core metadata,refinement metadata,and compound metadata of web agricultural information were confirmed by referring the policy and methods of DC,AgMES as well as the considering of its characteristics.Based on the metadata,the technical of the automated coding was studied and an standarized system for the register of the web agricultural information was designed by adopting the platform of www.ccain.net.The study considered the whole links of the web agricultural information including the description,arrangement,quality control,and automated coding and recording,which has important theoretical significance and practical value to the effective use,scientific management,exchange and sharing of web agricultural information.
〔Key words〕resource of web agriculture information;metadata;register
自2000年以来,我国对农业信息化研究及应用的关注和经费投入日益增加,信息资源已经提升到与能源、材料同等重要的地位[1]。其中,网络农业信息资源扮演着尤为重要的角色。因特网飞速发展,农业网站起步晚发展快,致使网络信息急剧膨胀,在数量呈指数增长的同时,信息质量良莠并存[2],甚至部分已失去控制,形成了信息垃圾、信息死角。作为2006、2007“全国农业网站百强”的“华中农业信息网”也面临着同样的问题。虽然搜索引擎等客观技术手段的发展为信息的获取带来了便利,但其治标不治本,“总能找到不需要的信息”的状况仍令人担忧。从农业信息本体的角度,制定规范的网络农业信息资源元数据及开发标准化信息著录系统才是解决问题的关键之所在。利用标准的元数据对信息资源进行准确、清晰的描述,开发相应的信息著录系统对信息进行科学分类编码、质量控制,实现高效统一著录。系统性的标准化过程,不仅能提高信息的查全查准率,且其规范的管理功能及统一互兼容性,使得信息资源的共享和高层整合成为可能[3-4],从根本上解决农业信息在利用、管理、共享中存在的问题。
对于网络信息资源元数据的研究,国外较成熟较有影响的主要有DC(都柏林核心集)、MARC(机读目录格式)等。DC应描述网络资源的需求而生[5]。MARC作为图书馆行业内通行标准,随着网络信息的激增,也逐步向编目的应用延伸[6]。目前,国内的研究多处于其内涵、作用、比较等理论探讨阶段[7-10],在应用开发方面有所增加,多以DC为蓝本扩展而来[11-13]。由于网络农业信息资源具有其专业复杂性,目前还缺乏理论针对性及应用于实践的系统性研究。本文参考DC、AgMES(联合国粮食及农业组织农业元数据元素集)、及国家农业科学数据共享中心元数据标准[14],提出了针对网络农业信息资源的描述元数据,并在此基础上,开发对网络农业信息进行科学分类组织、质量控制及自动编码的标准化信息著录系统。从理论研究到系统开发,系统性的为网络信息资源描述及存储管理提供了规范化模式,极有利于提高信息资源利用率,实现共享。
1 网络农业信息资源元数据标准研究
1.1 网络农业信息资源及其元数据的界定
奈斯比特认为:“失去控制和无组织的信息在信息社会不再构成资源,相反,它将成为信息工作者的敌人”[15]。黄纯元认为,网络信息资源是“通过因特网可以利用的各种信息资源”[16]。前者强调了构成资源的信息所应该具备的系统性,有序性和可理解性;后者则反应了信息资源具有的有效性和可利用性特征。
IFLA(国际图联)认为“元数据是关于数据的数据”[17]。在农业领域中,因特网上的农业信息资源是最主要的组织和传播对象,因此网络农业信息资源可以理解为通过因特网传播、经过系统组织、有效可利用的各种农业信息,其元数据是关于网络农业信息资源的数据。
1.2 网络元数据的选择
通过对网络信息资源描述界颇具影响的两种主要元数据标准DC、MARC的比较分析表明(表1),DC主要用于描述网络信息资源,结构简单、易用,能被非专业人员快速掌握,其可扩展、可选择等特性使得对信息的描述更清晰、具体、准确,在具体领域中应用性极强。MARC虽然可以对网络信息进行编目,但主要用于描述图书馆书目信息资源,其较强的专业性、著录详尽性及结构复杂性,对于日新月异、呈指数级增长的网络信息资源的描述难免存在效率问题。因此,参考DC,及以DC为蓝本扩展而来的农业元数据标准对研究针对网络农业信息资源的元数据是较好的理论基础,如AgMES和国家农业科学数据共享中心元数据标准,前者是DC的延伸,是FAO为了描述农业信息资源而建立的元数据标准,后者主要用于农业科学数据编目、元数据交换及共享等。
1.3 网络农业信息元数据
根据DC的可扩展、可选择、可重复、可修饰、内在本质及语法独立等原则,在调研国内知名农业网站的农业信息栏目和信息内容特征的基础上,参考上述较权威的相关标准,确定核心元数据、细化元数据、复合元数据,并编制数据字典。
1.3.1 元数据
研究确定的网络农业信息资源核心元数据为18个(表2)。元素的细化可以使元素的含义更具体,它是限定词的一种。在此,对部分元素进行了细化,如元数据“资源类型”细化为:文本(以文本为主的资源)、图像(以图像为主,文字说明为辅的资源)、图形、视频、音频、动画。复合元素是由若干数据元素、或数据元素与其它复合元素、或若干其它复合元素共同组成,它通常用来表示较高层次的概念[18]。如在本研究中,“来源信息”是由“来源名称”、“来源URL”两个数据元素组成的复合元素。具有复合元素的核心元数据为13个。本研究共确定数据元数77个。
网络农业信息资源较之其它信息资源一个重要的特点,就是具有专业复杂性和科学逻辑性,要对该类信息进行较好的描述,全面、系统地反映其属性全貌及内在逻辑关系,就必需描述信息的有序分类特征。因此,本研究在提出分类编码体系后(见后文),根据DC可扩展及内在本质原则,将其类级属性(如“一级分类”)纳入网络农业信息资源的元数据描述字段(表2)。根据其可选性、可重复性、可修饰原则所确定的细化元数据和复合数据元,则有利于对重要相关信息进行更具体的描述。对各数据元数都规定了自身的可选性(不硬性规定所有的数据元数必选),这样在全面的反映网络农业信息资源属性的基础上,也注重了著录的质量与效率。
1.3.2 元数据字典
各元数据采用包含九个属性的集合来描述,即:中文名称,元素的中文名称;英文名称,元素的英文名称;标识,用字符串表示的元素标识,根据分类编码研究环节确定的编码方法由资源类型编码、信息所属类级编码及序列号组成;定义,对元素含义的解释;类型,元素所属数据类型,有复合类型(即该元素为复合元素)、整数类型、实数类型、文本类型、日期型、时间型及日期时间类型等;值域,元素值的允许范围;可选性:有3种可选性,M,即必选,是元数据文件必须包含的实体或元素;C,即一定条件下必选,在满足一定条件时,元数据文件必须包含的实体或元素;O,既可选,该元数据实体或元素是可选的,根据需要情况决定是否将其包含在元数据文件中;最大出现次数,元素所允许的著录次数,如1(不可重复著录)、n(可重复著录无限次)等。核心元数据字典如表2。
2 网络农业信息分类组织及质量控制
2.1 编制网络农业信息资源分类编码体系
网络农业信息资源具有专业性、科学性的特点,现有的分类方法难以对其完整、明确、系统地组织[19]。《中图法》以学科分类和逻辑划分为基础,体系结构完整,用层级纵向联系及参见类目等横向联系方法来直接显示类目间的关联,比较全面、系统地反映了信息全貌及其内在逻辑关系。其较强的学科信息资源组织功能,非常适合于浏览检索和对主题进行分类控制,这是目前搜索引擎无法做到的,也是国内其它分类法不可比的[20]。因此,本环节以“华中农业信息网”多年采编的信息作为实验材料,在充分考虑网络农业信息特点的基础上对《中图法》的农业及相关类目进行了网络适应性改造,提出了四级分类类目体系及编码规则,形成了全面、实用、易用的分类编码体系(见近期《情报学报》刊出同作者文章)。
2.2 信息质量控制
对信息去粗取精、去伪存真,从而提供质优价高的信息具有重要的意义[21]。本研究制定的信息质量控制方案如下:(1)信息内容正确、合理、有效。即内容是否符合标题含盖的范围、是否有超出、有无知识性错误、是否反映事实真相及数据是否处于有效期。(2)信息的深度和广度。深度主要指反映某主题信息的详细程度,广度则是指反映某主题涉及本领域及相关领域的范围。(3)信息来源权威、可靠。主要通过作者、网站主办者、引用资料来源、审核情况等几个方面进行验证。(4)信息的时效性。从信息的创建日期、发布日期、最后修改日期等方面进行判断,也可从网站的更新频率、版权有效期等相关信息进行推测。(5)信息采集规范、完整。根据研究确定的元数据格式来采集信息,确保元数据元素采集的全面性,信息的一致性。在数据库中要求完整地给出一个对象的相关元数据,重点审查必选元数据字段的完备性,暂时没有时应标明‘暂缺。(6)字符编码标准化:文本信息中的汉字采用GB码统一编码和存储,英文字母和符号使用ASCII编码和存储。涉及信息对象中数学符号和公式、化学符号、地理坐标等,应参照相关标准,如对于公式符号的标准参照GB3100-3102-93《量和单位》的有关规定。(7)术语标准化:参考《农业大词典》、《农业叙词表》以及有关国家行业标准中的术语部分,规范化表达信息中的农业术语,最大程度地消除一名多物,一物多名等混乱现象,保证其能得到准确、通畅的语义交流。(8)信息采集后质量检查或抽查:质量检查是根据上述原则进行逐条审查。信息较多时,采用随机抽查方式,原则上数据库记录在1 000条以内抽查30%,1 001~2 000条之内抽查20%,2 001~3 000条之内抽查15%,3 001~5 000条之内抽查12%,5 001~20 000条之间抽查10%,大于20 001条记录抽查2 000条[13]。
3 自动编码著录系统开发
由于农业信息资源的复杂性和庞大性,进行人工著录效率将十分低,因此研究在确定元数据、网络农业信息分类体系及质量控制方案后,设计自动编码著录系统,以提高信息录著速度和信息管理利用水平。该系统采用Browse/Server结构分布式网络平台,以Windows NT系统的IIS(Internet Information Server)作为WEB服务器,以Microsoft SQL Server 2000作为后台数据库,在ASP.NET开发平台下运用C#进行开发而来。
3.1 数据库设计
数据库分两大部分,即核心元数据表和复合元数据表,前者字段项目如表2,后者包括主题、分类、图片、动画、视频、音频、作者信息、采编人员信息、来源信息、日期时间及权限关联各表。复合元数据表以核心元数据表为中心。其中分类表由上述研究分类体系的一、二、三、四级类4个表组成。系统所需的各种数据以共享的方式存储在数据库服务器上,通过WEB服务器的访问返回给应用系统,实现数据和应用系统的分离。
3.2 系统主要功能及实现
3.2.1 用户管理
在此功能模块中,管理员可以添加、修改、删除用户的信息,并分别通过3个按钮来完成。为增加系统的安全性,还可以分配不同的权限,对部分用户进行锁定操作。
3.2.2 信息自动编码
信息的著录项——编码,即核心元数据中的“标识符”,该项在信息著录界面中没有专门控件来提示输入,而是通过后台程序模块自动完成。按照分类编码体系研究环节制定的编码规则,信息编码由“资源类型代码+所属类号+序列码”组成。资源类型代码,即被著录信息的网络多媒体类型代号,如文本——T、视频——V等。所属类号,即该信息所属每级分类的代号组合,由四级分类八位代号组成。序列码,即区别同类其它信息的顺序码。信息著录过程中,根据选择,资源类型控件利用SelectedItem.Value属性记录资源类型代号,根据分类选择,四级联动控件以SelectedItem.Value属性分别获取各级类名的代号,每增加1条信息,分类表的Count字段值自动增加1。在生成编码时,读取资源类型代号、各级分类类名代号及Count值进行组合,以形成该信息编码。如“水稻稻瘟病防治”,其资源类型代号为“T”,分类信息为“植物保护”(13)——“病虫防治”(12)——“农作物”(13)——“粮食”(10)类,属于该类的第5条信息,因此其编码为T131213105。该功能极大的提高了信息著录效率,更方便于后台信息管理。
3.2.3 元数据著录
元数据项以控件的方式显示在系统界面。待录入的本地信息经过上述质量控制和内容标准化后,即可根据控件提示以实现信息著录。信息分类时,系统通过四级联动下拉框实现四级类目的级联显示,以提示并进行选择分类。如对于“联合收割机介绍”这条信息,运行过程中,先初始化第一个DropDownList控件(即加载一级分类的类名类号),用户可初步判断其一级类属于“农业机械”,作出该选择后,SelectedIndexChanged事件使得第二个DropDownList控件自动从后台数据库的信息分类表中加载“农业机械”的下级类名和类号,当用户在其提示下选择其二级类属于“机械农具”后,下一个控件的数据加载如此类推。《中图法》的分类体系已经成为人们的使用习惯,本分类体系继承这一特点,使每级分类只需常识性判断选择即可,且一般下位类在10~20个之间,这样用户一直在一个相对较小的范围内判断分类,有效提高了分类精度。最后利用SQL Server存储过程将界面控件信息分别加入相应后台数据表。存储过程的使用不仅提高了系统的性能,也使得代码和数据分离,非常有利于更新与维护[22]。
3.2.4 信息规范性控制
设计了验证控件,在程序级确保信息规范化录入。主要依据是元数据属性和内容标准化方案,在信息入库前,进一步利用APS.NET的控件验证功能,控制信息的完整性,如元数据属性中规定的M必选项不能为空等,多媒体信息的格式、大小等。
3.2.5 信息查询与编辑
本系统信息查询提供一般查询和高级查询两种方式。一般查询可从信息类型、标题、关键词、内容4个元数据项进行单项检索。高级查询提供包括一般查询4个元数据在内的9个元数据项的与、或综合检索。查询结果可进行分页浏览。根据上述质量控制方案中采后信息质量检查或抽查方法,对需要删除的信息可直接删除,对需要修改的信息,在许可的权限下,可进行编辑修改。
4 小结与讨论
研究根据网络农业信息特有的专业性和科学逻辑性特点,及DC的扩展原则,增加了类级属性作为核心元数据,从而更科学地反映了信息间有序的内在关系。进一步提出的细化元数据、复合元数据,对具体信息相关的重要信息进行描述,形成了较全面、科学的元数据体系。基于信息本体描述元数据的解决方案有利于更复杂更综合的检索,以得到更精确的结果,从问题的根本上缓解了信息查找、利用的困难。
通过专门的自动编码信息著录平台进行信息元数据采集,利用四级联动分类控制、自动编码、控件验证及存储过程等计算机技术,可以避免信息采集时描述与分类的随意性,有利于提供可靠的信息资源和进行高效编码存储,实现统一著录管理及不同信息源的整合。
当前网络农业信息提供者只注重内容,忽视信息的描述、组织及质量。事实上,只有清晰规范化描述、合理的分类、经过质量控制和标准化表达的信息,才能称其为信息资源,否则将会沦为信息垃圾。因此,本研究创新性的将上述3个环节相结合,并开发基于其的信息录入管理系统,不仅提供了一套较好的信息组织管理方案,也极有利于分布式异构网络环境下的农业信息互操作,实现信息资源广泛的共享。整个系统性的研究对网络农业信息资源建设具有重要意义。
基于网络农业信息描述元数据、分类编码及质量控制的自动编码著录系统已有效地应用于“华中农业信息网”后台信息管理之中,较之传统管理方法成效显著。但要成为能够普遍推广的元数据标准及系统,还存在一些需要完善的地方,如设计和定义元数据的XML Schema文档以便于网页数据直接交换和共享,基于分词、切词的自动分类方法等,尚待进一步研究。
参考文献
[1]中共中央办公厅、国务院办公厅印发.2006-2020年国家信息化发展战略[A].2006,5.
[2]何永进,章继华.我国农业信息网站的运作现状与发展对策研究[J].华中农业大学学报,2003,(3):12-14.
[3]崔运鹏,钱平,苏晓鹭.农业科技信息核心元数据标准框架研究及其著录信息管理系统[J].中国农业科学,2007,40(4):685-692.
[4]王启明,池天河.中国可持续发展信息共享系统设计与关键技术研究[J].资源科学,2001,23(1):12-16.
[5]Kuang-Hwei(Janet)Lee-Smeltzer.Finding the needle:controlled vocabularies,resource discovery,and Dublin Core[J].Library Collections,Acquisitions,and Technical Services,2000,24(2):205-215.
[6]Online Computer Library Center.Internet Cataloging Project Call for Participation:building a catalog of Internet-accessible materials[EB].http:∥www.ocle.org/ocle*man/catproj/catcall.htm
[7]毕强,朱亚林.元数据标准极其互操作研究[J].情报理论与实践,2007,30(5):666-670.
[8]权金华,庞淑杰.网络资源编目中机读目录格式与都柏林元数据格式的比较研究[J].图书馆学研究,2005,(10):46-49.
[9]刘嘉.元数据:理念与应用[J].中国图书馆学报,2001,(5):32-36.
[10]王慨.论元数据在网络信息资源组织中的应用[J].现代情报,2005,25(12):54-55.
[11]刘金红,陆余良.一种基于元数据和Ontology计算的网络信息过滤方法[J].计算机应用研究,2006,23(3):211-231.
[12]陈翼,张计龙,等.一种跨领域的信息资源描述标准——基于都柏林核心元数据的高校管理信息标准的研究与应用[J].情报学报,2008,27(3):369-374.
[13]严武军,马小燕.高校数字图书馆元数据检索系统的设计与实现[J].计算机工程与设计,2006,27(12):162-164.
[14]国家农业科学数据共享元数据标准[EB].http:∥www.agridata.cn/chzlaw.asp
[15]刘嘉.元数据导论[M].北京:华艺出版社,2002.1:2-3.
[16]黄纯元.图书馆与网络信息资源[J].中国图书馆学报,1997,(6):13-19.
[17]International Federation of Library Associations.Digital libraries:metadata resources.Latest revision at September 29,1999[EB].http:∥www.ifla.org/II/metadata.htm
[18]中国科学数据库核心元数据标准.中国科学院计算机网络信息中心科学数据库中心,2004.8.
[19]牛振国,符海芳.面向多层用户的农业信息资源分类初步研究[J].资源科学,2003,25(2):20-25.
[20]王美琴,侯汉清.《中图法》不能用于网络信息分类组织吗?——兼评袁万坤先生的观点[J].大学图书馆学报,2005,(6):60-62.
[21]粟慧.网络资源评价——评价标准及元数据和CORC系统的应用[J].情报学报,2002,21(3):295-230.
[22]黄魏,贺立源.基于Web—SQL Server的农业信息网站建设[J].华中农业大学学报,2004,23(2):271-274.