APP下载

教育类辞书如何优化内容资源管理平台

2014-07-05章琢之程艳

出版参考 2014年10期
关键词:标引辞书词条

章琢之+程艳

数字化改造一直是出版界关注的焦点,随着出版人对数字手段和技术认识的深入,出版企业转型的迫切需求,搭建数字化公共编纂平台已成为一种趋势。平台的构造,离不开对海量内容资源的管理,它是联系协同编纂和动态发布的纽带,是支撑数字出版业务发展的基石。它不单单是对已有的历史资源的管理,还将面对未来数字出版不断丰富的新的应用发布的挑战。本文以上海教育出版社为例,针对目前存在的问题,阐述了如何优化内容资源管理平台。

一、出版社内容资源管理存在的主要问题

内容资源主要包括内容对象及其元数据和标引体系,以及各类模板。其中内容对象(文字、表格、公式、图片等内容的任意组合)是结构化、可复用的资源;元数据及标引体系是驱动系统运转的基础数据定义;模板使内容资源的编纂更为便捷、合理,并决定了数字产品发布的呈现形式。内容资源的特点是:合适的颗粒度;元数据丰富;良好的互操作性;与编纂平台的无缝连接。

内容资源管理,是从产品为中心的管理转向一种灵活多变、面向定制化需求的以结构化内容为驱动,以对外提供内容信息服务为导向的新型的管理。它的关键是内容对象的可视化和智能的复用机制。

很多出版社经过这些年的信息化建设,虽然通过网络系统采集处理了大量的数据、取得了不错的效果,陆续建立了形式各样的内容资源管理平台,但也感到快速膨胀的信息对管理和使用带来的局限,大量、分散的数据、信息难于管理,不便于提供便捷的服务和资源共享。存在的问题主要有以下三方面:

(1)缺少高效的数字化编纂平台的支撑。大多数的内容资源管理平台只是将原有排版文档转化为pdf、xml等格式。其实在转档过程中,丧失了大量元数据信息。虽然在后面进行了标引,但还是不能胜任资源管理和多元发布的需要。

(2)缺少对海量内容资源的数字化智能管理。在海量内容资源生成时(如本文涉及的教育类辞书),内容没有统一标准,且互不关联,缺少内容的重用机制,手动更新,易造成“存进去,取不出”的尴尬场景。

(3)鲜有特色的应用创新出现。正是由于以上两处的短板存在,使得内容资源管理无法与发布产品建立联系和互动,无法重复、便捷利用已有资源,也就鲜有高质量的、让人耳目一新的应用创新出现。而对于用户来说,所需的产品往往并非只是原有图书的数字化产品,而是有十分广泛的个性化产品需求。

也就是说,出版社的数字内容资源迅速膨胀,资源本身虽然具有价值,但是分散的数据和信息形成不了竞争力。

二、以三大关键流程目标优化内容资源管理平台

应该说,一些在数字出版领域极力开拓先河的出版社已经认识到上述情况,正在加紧构建优化内容资源管理方案。在辞书类的内容资源平台建设上,中国大百科全书出版社、商务印书馆、上海教育出版社等出版单位都在进行一些可圈可点的探索。下文以上海教育出版社的教育类辞书为例加以说明。

上海教育出版社编纂出版的《教育大辞典》《心理学大辞典》和《中国教育大百科全书》,是国内最具权威性教育类辞书,在教育学类辞书理论、编纂水平、编校质量上都达到了一个新高度,是教育学类辞书编纂出版的典范之作,获得多项国家级图书奖励。

近年来,在整合已有资源的基础上,借助这三套大型辞书编纂、修订的机遇,上海教育出版社提出了经过优化的基于数字化公共编纂平台的教育类辞书内容资源管理方案,可以更为有效地根据用户的知识服务需求发布特定产品,从而实现知识创新。它已经成为该社数字出版领域的战略方向之一。

上海教育社以这三套大型辞书的内容为基础,合并重复内容,把相关联知识整合,按科学设计的结构重新组织编辑所有内容对象,形成统一规范的内容资源。同时,基于海量的内容存储需求,用专业的内容管理数据库技术,有效提高对海量内容存取操作的效率,并能实现可以动态扩展的架构,方便内容动态扩展。以内容对象(这里主要是指辞书的词条)的协同编纂、智能管理、多元发布三大关键流程目标优化内容资源管理平台,即协同编纂提供多渠道采集、词条编纂、词条审核;智能管理提供内容的自动标引、词条关联、内容聚合;多元发布提供内容样式渲染、审校、发布和面向客户的个性化服务,包括知识检索、知识导航、词条增补、主题阅读等。具体内容为:

(1)协同编纂

协同编纂是将辞书的数字内容,导入内容资源管理平台并审核的过程。上海教育社研究、开发了一套面向词条的创建、编辑、审核工具,它允许用户基于一个特定的语义进行内容的输入和编辑。它支持通过模板来加速复杂文档的创建。XML化的文档可以引用(重用)其他内容对象,来形成复合文档。

(2)智能管理

内容的智能管理主要包括内容去重、内容聚合、内容标引、内容检索。

内容去重是通过内容分析引擎完成内容的相似度分析,把重复的内容展示在内容加工平台,编辑人员处理重复的内容,形成单一标准的知识。内容聚合是通过内容分析引擎挖掘具有关联的信息,把相关内容展示在内容加工平台,编辑人员处理分散的内容,形成统一完整的知识。内容标引是使用内容加工平台的标引工具,把内容按一定的标准和规范标引,形成有机的知识体系。内容检索是使用智能检索引擎实现智能语义分析功能和分词功能,提供高度智能化的全文检索功能。

(3)多元发布

内容的使用和发布包括实现基于浏览器的内容管理和维护平台,以及基于浏览器的内容使用平台。用户可以利用浏览器访问应用平台,完成知识检索、词条浏览、知识导航、主题阅读等功能。例如,可以按照用户需求,个性化定制一本简明教育学史辞典,即按照用户的要求,将教育学史相关词条按照主题(或年代等逻辑线索)进行重新编排,并发布。

三、教育类辞书数字化改造的应用价值

以国内权威教育类专业资源为基础,基于数字化公共编纂平台的全新的内容资源管理方案,从内容加工的效率和智能化出发,在科学的标引体系和专业的软件系统平台的支撑下,利用数据挖掘技术,能够实现海量内容数字化编纂、管理和发布,这样的数字化改造具有较大的应用价值。

(1)首创国内权威的专业资源管理平台。目前我国尚无教育类学科专业资源管理平台,上海教育社通过对权威专业辞书的数字化开发,将建成国内第一个大型的、开放性的教育类专业资源管理平台。

(2)与数字化公共编纂平台无缝对接。由于有高效的数字化编纂平台作为支撑,从源头上解决了困扰业界多年的内容对象的“全息”元数据入库问题,即做到了与数字化公共编纂平台无缝对接。

(3)实现海量内容资源的深度的加工及精细化管理。通过采用先进的数据库技术,为海量内容的深度的加工及精细化管理提供了全面的支持。各种强大的检索、分析引擎保证各类内容管理和多元发布的应用和工具有了实现的基础。

(4)具备开发内容资源的特色应用创新。在充分考虑内容资源重复利用和多元智能发布的需求的前提下,设计实现的内容组织结构确保了数字内容按参数和需求自动重组,可以满足纸质出版、电子书格式出版、互联网发布、移动终端发布、个性化发布等需求,并开发各种有特色的应用创新。

可以预见,基于数字化公共编纂平台来优化内容资源管理,通过对内容对象的智能化处理,能够发展出一种健康、高附加值的内容资源生态系统,以支撑数字出版业务的迅猛发展。

(作者章琢之单位系上海教育出版社,作者程艳单位系新乡学院外国语学院;本文内容源于“基于XML的出版业数字化公共编纂平台”项目的部分研究工作,得到了上海市文化创意产业扶持资金的支持)

猜你喜欢

标引辞书词条
大型辞书疑难字考释七则
档案主题标引与分类标引的比较分析
本刊对来稿中关键词标引的要求
2016年4月中国直销网络热门词条榜
2016年3月中国直销网络热门词条榜
本刊对来稿中关键词标引的要求
2016年9月中国直销网络热门词条榜
科举干禄与语文辞书编纂
大数据相关词条
本刊对来稿中关键词标引的要求