APP下载

基于教学需求的视频资源建设与实践∗——以华南农业大学图书馆为例

2014-01-01严一梅权彦丽

图书馆学刊 2014年11期
关键词:字段资源库检索

严一梅 权彦丽 张 进

(华南农业大学图书馆,广东 广州 510642)

目前,基于全程数字化多媒体课件的教学形式已成为高校课堂常见教学模式。现代多媒体设备与技术为丰富课堂教学内容提供了平台,使课堂信息量增加,节奏加快,学生当堂接受能力受到挑战。为此,除了要求教师具有重点突出、层次清楚的表达艺术外,优质课件制作水平与知识点描述水平等也成为提高课堂教学效果的关键。有时,一幅图片、几帧动画或一段视频,对于抽象概念的深入浅出表达胜过任何语言文字。另一方面,学生在课外自学专业课程时,若能观赏到与知识点相关的优秀视频节目,对于扩展视野,提高学习兴趣,尤其是提高对抽象概念的理解能力是非常有益的。所以,教学一线迫切需要各种专业相关的优秀多媒体资源,这种资源广泛分布在互联网上,出现在各种影视作品或视频节目中。问题是找到它们并不容易。尤其是通过专业相关术语去检索,往往一无所获,即这些资源对于教学一线的师生而言是看不见的,是被“隐藏”的。文献《服务于教学一线的视频资源再挖掘》[1]深入分析了这种信息隐藏的机理,提出“不同用户视角隐藏和跨行业隐藏”的资源价值隐藏概念,通过一些典型实例,论证了这些隐藏资源内容精彩、观察分析问题方法独到,具有极大的专业教学应用价值,需要高校图书馆通过创建“教学素材价值视频资源库”(后文简称“资源库”)去广采访、深挖掘,主动为教学一线提供优质信息服务。笔者基于文献《服务于教学一线的视频资源再挖掘》[1]的研究结果,进一步论述建设资源库会遇到的关键技术问题,提出解决问题的策略方法,并以华南农业大学图书馆现有的“TRS信息发布检索系统”为基础,给出资源库的技术架构及实现特色功能应考虑的技术问题等,最后通过实例测试验证技术方法的可行性。

1 资源库开发平台的选择与考量

为了充分发挥图书馆已有网络信息设备的能力,资源库建设平台的选择遵循了尽量利用现有平台基础、适当考虑引进新技术产品的原则。目前学校图书馆已建有主干千兆、百兆到桌面的高速局域网,业务工作全部实现了计算机管理。在数据库资源建设与管理方面,已购入北京拓尔思技术有限公司的“TRS信息发布检索系统”。购入的产品模块包括:TRS Database Server5.0(TRS数据库服务器)、Admin 5.0(TRS数据库管理员工具)、TRS WAS5.0(TRS WEB Application server-TRS内容发布应用服务器)。其中,TRS Database Server是数据库系统的核心,以服务器方式运行,基于成本优化的查询算法(索引分区技术、多线程并行运算技术、面向全文检索的Cache技术),使得G级数据库查询速度达到亚秒级,数据空间零膨胀率,并支持大量并发用户的同时访问[2]。TRS全文数据库=全文检索+关系数据库的基本关系特征+Native-XML数据库特性,它为各种格式文档的存储、管理和检索提供动力;TRS Admin是在客户端对TRS的对象进行创建、删除、修改等管理,及对数据库对象进行装库和权限管理[3];TRS WAS则由两个模块组成,一个模块是系统控制模块,称为TRSWAS管理控制台,可以完成用户管理、频道管理、定义各种频道和数据库之间的关联;另一个模块为Web模块,即Web服务器,用于将数据库中的信息动态发布到Web服务器上[4]。图书馆已购入的模块涵盖了TRS先进的中文信息处理技术:内嵌汉语自动分词系统,支持按词索引、按字索引、按关键词索引、二元组索引,允许使用文中的任意字、词、句和片段进行检索,提供了基于文献内容而不仅仅是文献外部特征的全文检索手段。TRS所提供的按词和按用户自定义关键词进行索引和检索,以及基于知识词典的扩展检索功能,能满足特殊应用领域的高查准率和高查全率的要求。

对于新技术考量,目前TRS市面产品已经覆盖了全文检索、搜索引擎、内容管理、知识挖掘及知识管理等方面。其中,与挖掘知识建库功能要求最接近的配套产品是TRS网络信息雷达系统(TRS InfoRadar),其功能技术架构如图1所示,可以实时监控和采集Internet网站内容,对采集到的信息自动进行过滤、分类和排重等智能化处理,最终将最新内容及时发布出来,实现统一的信息导航,同时提供包括全文、日期等在内的全方位信息查询[5]。由图1可知,其技术核心是对采集到的信息能进行自动化处理。但考虑到所建资源库采集挖掘的是视频或动画资源,需要浏览视频内容以提取原说明文档没有给出的专业相关检索信息,而基于文字识别技术的自动化智能处理尚不能满足基于画面识别要求的任务,所以,该环节功能尚须依赖人工实现。

综上分析,资源库的建设平台确定为“TRS信息发布检索系统”+人工辅助信息处理。

图1 TRS网络信息雷达系统技术架构

图2 资源库体系结构

2 资源库结构功能设计

数据库结构功能设计主要包括数据库体系结构设计和数据库记录字段设计。

2.1 资源库技术架构与体系结构

资源库技术架构与体系结构直接采用TRS信息发布检索系统提供的平台,如图2所示。

2.2 资源库记录字段设计

资源库记录字段设计是实现资源库特色功能的关键。根据视频资源的特殊性,设计中综合考虑了元数据标引格式以及方便库维护等要素,得到资源库记录字段设计如表1所示。其中:

①表中的“原主题词及关键词”是指所采访作品的原有索引词汇,采用“保留+扩充”方式著录,既可以维持原作品期望的索引视角,又能够扩展资源库关于专业相关的索引视角。

②为了充分挖掘作品的专业相关价值,应该在字段6、字段7和字段8的著录文字中,尽量不要疏漏作品所涉及的专业种类词汇,以保证教学应用检全检出率。

③设置“价值”字段,用作资源库规模控制参数。该参数V是字段9、10、11、12的函数。其表达式定义如式(1)所示:

式中:V表示资源价值量化值;t表示执行算法的当前时间(日期);t1表示“出版时间”(日期);t2表示“入库时间”(日期);n1表示“播放次数”;n2表示“下载次数”;y表示资源计划留存年数;a、b为资源老化权重系数(1/天),取a

下面说明式(1)各项代表的物理意义:

①V值越小,资源价值越低,库维护操作时优先淘汰V值最小的资源项;

②(t-t1)和(t-t2)分别代表入库资源项的年龄与库龄(天数),a

③表达式中的“1”用来屏蔽计算机执行表达式时可能出现的溢出故障;

④式(1)也可以写成V=V1+V2。其中V1反映资源的滞留价值分量,V2代表资源的能力价值分量。把V2项定义成能量单位,目的是可以用小的取值范围表达可能出现的大的取值域。当V2→0时说明,资源老化因素远大于被使用频度V1项代表资源的留用价值。y为欲留用年数。期限到时V1=1,所以,当V≦1时,说明该项资源“价值低”且“超期“存放,可以作为资源退库算法的充要判据。

表1 教学素材价值视频资源库字段定义(元数据)

3 数据采集与加工

在多媒体资源的采访、收集与加工过程中,会面临一些技术问题,这里介绍几个主要问题的解决方法。

3.1 版权问题

广采访必然会涉及资源的版权问题。国际上通行的有4种做法:法定许可、合理使用、强制许可、授权许可。图书馆可采用“合理使用”的方式[6],通过“约束在本校教学服务范围内使用,不以赢利为目”的条款获得免费或优惠使用权;对于暂无使用权的资源,可以在字段14标引资源的校外链接路径,由用户根据资源价值自主解决版权问题。我们在数据记录中专门设置“权限范围”字段,用来标引资源项的使用权限。

3.2 素材切分策略问题

对于能够入库的资源实体,当我们从专业教学视角挖掘其使用价值时发现,有些作品单集就涉及多学科专业,跨度很大。如英国查尔斯·科尔维尔导演、理查德·哈蒙德主播的《看不见的世界》(《Invisible World》)[7],内容涉及的专业学科多达十几种,而CCTV引进播出的《金钱的故事》(《The Ascent of Money》)[8],单集仅涉及金融学某一个方向,对于前者,若一个单集创建一个记录,相关字段需要标引几十种专业名词[1],保证查全率但损失查准率。实践中,采用按学科跨度切分素材策略,使一个视频片段涵盖的学科专业数量相对适中。

例如《看不见的世界》第二集,单集名为《视野之外》,主要介绍人类可视光谱(7段光谱)之外的隐秘世界,涉及学科领域几十种,实践中将其切分成5个片段,每片段涉及专业学科领域约10余种。切分工具采用QQ影音3.7。而对《金钱的故事》单集不做切分。其单集涉及的专业学科种类约10余种。

3.3 记录信息残缺问题

实践中,在为资源项创建记录时,常遇到有些字段内容无法确定的问题。处理策略是规定字段1、4、5、6、7、8、10、14、15为必填(可确定)项,其余允许使用缺省值或空值。其中,定义字段9的缺省值等于字段10,字段15的缺省值为“校内教学使用”。这样在保证新资源尽快入库的前提下,以后可以通过库维护逐步完善资源信息。

3.4 价值深度挖掘与字段字节数制约问题

为了充分挖掘作品的专业应用价值,需要在字段6、7中从专业相关视角对作品做深度标引(尽量多录入专业相关词汇),在字段8中尽量不疏漏主要情节描述。如此,可能有字段长度超限问题,其实不然,因为目前计算机操作系统和文件系统的字长均不低于64位,即使按TRS早期版本的保守限定,允许每个记录的最大长度为256M字节,每个字段值的最大长度为16M字节,按每汉字2字节计,单字段可容纳8M个汉字之多。

4 建库实例与测试

创建“教学素材价值视频资源库”包括定义库结构、加工资源实体、标引录入、审校、装库、发布等过程。

(1)按表1定义库结构,在TRS的System级别(具有Resource及以上权限的用户均可),通过选择“文件|新建”命令,在“新建”对话框里双击数据库图标,创建并保存“教学素材价值视频资源库”库对象。

(2)调出创建的资源库对象,顺次录入各资源实体(或按学科跨度切分的视频片段)所对应的数据库记录项,审校无误后保存;亦可将多条记录编辑成格式文档,利用TRS管理员工具成批“装入记录”到所建数据库中。

(3)利用TRS WAS发布到网站。包括定义频道、设计网页、发布到Web应用服务器。

①定义频道。TRS WAS通过频道在Web信息发布页面和后台数据库之间建立连接关系。进入TRS WAS界面,登录到TRS服务器,建立一个新频道名“教学素材价值视频资源库”,字段名称设置与表1取一致;概览字段选择字段“题名”“出版者”“学科类别”;细览则选择记录中读者感兴趣的大部分字段内容。

②设计网页。通过TRS WAS模板工具可以便捷实现。该工具嵌入了TRS置标的Jsp界面,只要修改模板页面中的TRS置标,就可以灵活表现数据库检索、浏览等功能界面。模板中的置标字段、频道中的显示字段与表1定义的数据库字段名称必须保持一致。另外,在用户页面中,设置与频道关联的超文本链接或检索表单,以实现与后台数据库之间的动态交互。

③利用TRS WAS将设计好的模板文档上传到Web应用服务器完成发布工作。

④检索功能设计。实践中直接利用TRS平台提供的检索功能,可以对文档的任意字、词、句和片段进行检索,而且能提供较多的外部特征检索,组合检索、历史检索、概念检索等多种检索方式和多种检索运算符,能满足专业教学用户的各种检索需要。

我们按上述步骤创建了一个小规模试验用“雏形”库,图3和图4分别是实验库的概览和细览界面,图5是一个组合检索示例界面。试运行结果表明,基本实现资源库设计的功能目标,验证了本项技术策略的可行性。

图3 资源库检索结果概览界面

图4 资源库检索结果细览界面

以组合检索出电晕现象为例(检索词为:看不见的世界,电晕)形成图5。

图5 资源库组合检索示例界面

5 结语

建设“教学素材价值视频资源库”,从丰富多彩的影视作品中挖掘出“隐藏”的教学应用价值,是高校图书馆优质信息服务的一项具有使用价值的工作。实施中还需要注意以下问题:

①资源价值标引的深度和准确度与资源库信息实时性要求相矛盾。因为信息采访面广、数量大,人工辅助阅览画面、准确全面提取价值信息难度大、耗时耗工。建议的解决方法是两者兼顾,一部分人力负责资源采访和粗加工,先保证新资源及时入库,一部分人力则负责库维护,周而复始地对入库资源做细加工,持续提升资源教学应用价值的标引深度与准确度。

②文中给出的字段设计为最简的设计,在实际建库过程中,可以根据需要适当扩展补充,譬如题名可增加英文题名、并列题名等。

③在建库工作中,可以采取“请进来,走出去”的方法,多与院系师生沟通,采纳意见、反馈需求,有助于扩展采编人员的专业学科知识面,扩展信息渠道,提升资源价值的标引深度与准确度。

④笔者建库基于TRS信息发布检索系统,实际应用不局限于此。所给出的关键技术策略同样适用于市面流行的其他网络数据库系统。

⑤目前建库工作还处于测试试运行阶段,后面将通过对试验库进一步的规模扩充与测试,从中及时发现并解决问题,不断完善,以期实现建设“教学素材价值视频资源库”,为教学一线提供优质服务的最终目标。

注释:

① 该式是对文献[1]中“退库优先值算法表达式”的具体补充修订。前者可以看作是一种概念表达式。

[1]严一梅.服务于教学一线的视频资源再挖掘[J].图书馆论坛,2013(6):123-126.

[2]北京易宝北信信息技术有限公司.命令语言工具使用手册[Z].北京:2010.

[3]徐筱红.利用TRS系统建设高校图书馆特色数据库[J].图书馆学研究,2006(3):32-34.

[4]李颖.TRS技术在图书馆网络服务平台建设上的应用[J].华章,2012(11):285.

[5]北京拓尔思信息技术股份有限公司.TRS网络信息雷达系统V4.0[EB/OL].[2010-05-07].http://www.trs.com.cn/pro duct/product-inforadar.html.

[6]叶艳鸣.慕课,撬动图书馆新变革的支点[J].国家图书馆学刊,2014(2):3-9.

[7]Richard Hammond.Invisible world[EB/OL].[2010].http://baike.baidu.com/view/2496050.htm.

[8]金钱的故事1[EB/OL].[2011-03-11].http://www.tudou.com/programs/view/8S7vH9HfcF0/.

猜你喜欢

字段资源库检索
幼儿园课程资源库建设之浅见
健身气功开放课程资源库建设研究
瑞典专利数据库的检索技巧
一种基于Python的音乐检索方法的研究
浅谈台湾原版中文图书的编目经验
数控加工专业资源库建设中存在问题及对策
题名与责任说明附注字段用法分析
基于共享资源库的混合式教学考核模式研究
专利检索中“语义”的表现
无正题名文献著录方法评述