APP下载

基于刻面的藏/汉教育资源的检索设计与实现

2012-07-02姬升官

关键词:术语教育资源检索

姬升官

(西北民族大学中国民族语言文字信息技术国家民委—教育部重点实验室,兰州730030)

在藏区互联网络逐步普及的今天,大力发展远程教育,对于促进我国民族地区教育的普及和建立终身学习体系,实现民族地区教育的跨跃式发展,具有重大意义。现在汉语远程教育技术体系已基本成熟,但是由于我国民族地区的教育不平衡的状况,特别是我国藏区的藏语教育资源与汉语教学资源相比较,拥有其独立的特点,使其在描述、检索上有很大的阻力。刻面技术主要是针对软件的复用而提出的一种提高软件开发效率和软件质量的切实有效的途径。该技术从资源的不同方面对其进行描述,有利于提高检索的准确率;同时,通过对查询结果匹配度权值的控制增加查全率。本文用刻面技术对数据资源库中的汉语、藏语教学资源进行详细地描述、分类,增加各类教学资源的检索成功率。这种检索技术的不足之处在于只能体现出刻面和刻面、刻面和术语以及术语与术语之间的组成关系,忽略了它们之间更为丰富的关系,而这些关系有助于系统对查询条件的理解,从而进一步提高查准率和查全率。本文通过建立刻面、术语(关键词)库,可以极大丰富刻面和术语、术语和术语之间的关系,有利于发现它们之间的内在关系;同时这术语可以作为检索条件到检索引擎之间的桥梁,通过它,更好地挖掘用户的检索意图,使得检索引擎检索出更接近用户意图的结果。基于这种思想,我们把术语库与刻面描述检索方案相结合,构造基于术语和刻面的资源描述与检索方案。

1 刻面技术介绍

在本文中一个刻面类由一组描述教育资源本质特征和属性的刻面所组成,每个刻面从不同的侧面对教学资源库中的教学资源进行分类[1]。在刻面分类策略中,每个刻面关联了一个合法术语的结构化集合—术语空间,在教学资源的分类和查找中用到的术语均来自于这些术语空间。术语空间的结构反映了术语间的语义关系,因此术语空间可以看做是一种语义网,而教学资源从外部来看,都是一组刻面术语的集合。一个教育资源可以被每个刻面中的一个或多个术语所刻划(刻面术语是一个确定的集合)。而每个刻面则反映了对教育资源库中教学资源的一种划分,因为刻面在分类和描述的形势下建立起来的,因此用户可以直观地从不同的角度指明待检索的教学资源,也有利于用户对教学资源的理解和应用[2]。

刻面分类策略应具有下列特性:(1)刻面必须充分并明确地描述教学资源库中全体教学资源,即每一个教学资源都可以用刻面来分类和描述;(2)每一个刻面与一个术语空间相关联,任意2个刻面的术语空间是正交的,即一个刻面的术语发生变化不会影响到另一个刻面的术语空间;(3)一个刻面的术语空间为有限的不定空间,即可以随时间的演进而动态地增加和删除术语;(4)每一个教学资源的所有刻面必须予以定义,不允许在对教学资源进行分类时有未定义的刻面,但查询时,用户可以利用任意数目的刻面来查询,因为本文的技术支持模糊查询;(5)教育资源库管理者对教育资源进行分类时,应该针对每一个刻面,从术语空间中选择适当的(多个)术语,以完成教学资源的封装工作。

在用刻面技术对教育资源库中的资源进行分类的策略中,教学资源管理者通过将刻面与对应的术语相联结,可以在教育资源间建立复杂的联系。与一般的层次分类策略相比,刻面分类策略更易于修改,更富有弹性,因为对一个教育资源刻面的修改不会影响到其他的刻面。同时,每个刻面对应一个结构化的术语空间(教育资源的描述关键词集合),避免了一般的关键词分类策略的杂乱无章,使得对关键词的管理更为方便和有序。而刻面分类模式必须遵循以下一般性原则[3]:(1)一致性原则;(2)精简的原则;(3)刻面正交的原则;(4)全面性原则;(5)易于理解的原则;(6)教育资源的复杂性和检索效率平衡的原则;(7)充分考虑具体的特定的教学资源(藏族九年义务教育,藏区科普教育,藏族学习普通话)的特点的原则。

2 相关基本概念

2.1 教育资源的分类

在藏语/汉语远程教育信息平台中,教学资源主要分为以下几类:(1)媒体素材;文本类素材、图形/图像类素材、音频类素材、视频类素材、动画类素材。(2)试卷;(3)课件;(4)教学案例;(5)文献资料;(6)网络课程;(7)常见问题解答。而其中文本素材主要分为:txt、doc、caj、pdf、pdb、rtf、htm、html、ps等格式。图形/图像类素材主要分为:BMP、JPG、GIF、PNG、TIF、PCX、PSD等格式。音频类素材主要分为:WAV、MP3、MIDI或流式音频格式;视频类素材主要分为:AVI、OuickTime、MPEG或流式媒体格式等;动画类素材主要分为:GIF、Flash动画格式、AVI动画格式、FLI/FLC动画格式或 Quick-Time动画格式。

2.2 刻面树权值H

由于藏语/汉语远程教育信息平台主要应用在我国的少数民族地区(特别是藏族区域),用户的学习、使用方式都具有独立的特征。如:藏汉学习风格、策略和方法的不同;藏汉学习者在多媒体方面交互方式的不同;指导者评审学习者的评估、偏好、历史绩效及未来学习目标的不同等。所以不同用户对初始查询的满足度评估在现实世界中具有不同的标准。对于上述教育资源数据库来说,有人关注格式属性,有人关注类型属性,有人却关注语种属性。因此对初始查询的满足度进行评估时,需要考虑被查询指定的属性对于当前用户的重要程度(即权重)。为了解决这一问题,本文将以当前用户提交的初始查询作为启示来分配属性权重。而本文定义的H值就是用来衡量被查询指定的属性的权重[4]。

令D是数据库中的一个教学资源库集合,S是在D上执行松弛查询后得到的近似查询结果集。如果Ai是D中的一个文本型属性且Ai的取值为{ai1,ai2,ai3....aik},则Ai在D 和S 上的分布用权重H可以表示为其中:P(Ai=aij|D)是D中属性Ai=aij的概率;p(Ai=aij|S)是S中属性Ai=aij的概率。H值的离散度越大,说明结果集中的数据分布与数据库表中的数据分布差距越大,则这个属性越重要。

从上面的公式可以看出,要想得到权重值H,就必须知道资源A在D和S上的不同的分布概率。假设D是从我们的藏语/汉语远程教育资源库中随机抽取的1 000个教育资源,主要的分布情况如图1所示。我们把S定义为在D中所有相对属性的集合,如媒体素材,则S是D上所有的媒体素材类的教育资源。而S分布情况如图2所示,则根据上面所讲的公式可以得到媒体素材相应的权值H为0.148,则同理可以得到以下的H值结果。

图1 整体数据分布图

图2 媒体素材类数据分布图

3 刻面树的建立方法

对藏/汉远程平台教育资源的刻面描述方法的基本思想是抽取教学资源的某些本质特征即刻面特征属性来描述它。每一个刻面与一个术语空间相关联,术语空间由一组术语构成,这些术语以及术语与刻面之间的关系可以用树来表示。而对于不同种类的教学资源,本文应用不同的刻面分类树进行描述。我们将其中的刻面、子刻面分别映射为树中对应的父节点、子节点,对采用某个刻面分类方案描述的教学资源,可以将其对应的描述术语映射为对应的叶子节点。资源描述树的构建过程[5]:(1)用查询教学资源的类型作为树根节点;(2)以教学资源的分类属性并把根据关键词和H权值作为描述的术语,插入作为每一棵树枝的枝节点;(3)术语的值即分类属性的属性值作为叶节点。其节点的构建树图如图3所示。

图3 教学资源检索树

其中A~W所对应的相关叶子节点,即是各枝节点所对应的属性值,依次为:教学资源的名称、媒体素材、试卷、课件、教学案例、文献资料、网络课程、常见问题解答、教学资源的大小值、文本、图形/图像、音频、视频、动画、藏语、汉语、英语、教学资源发表日期、文本格式(txt、doc、caj、pdf、pdb、rtf、htm、html、ps)、图形类格式(BMP、JPG、GIF、PNG、TIF、PCX、PSD)、音频类格式(WAV、MP3、MIDI)、视频类格式 (AVI、OuickTime、MPEG)、动画类格式(GIF、Flash、FLI/FLC)。

图4 教学资源描述树实例

而其匹配树的构建过程与描述树的构建基本一致。如一个教学资源的类型、大小、名称、语种、日期、格式等几个子刻面来描述,刻面类型的子术语属性值依次是视频、400M、小学藏语文、藏语、2009-8-20、AVI。通过以上叙述方法可以构造一棵如图4所示的刻面描述树。对于教学资源的查询也可相应地表示为一棵查询树,而其查询树的构建过程与描述树的构建基本一致。将查询中出现的刻面名、子刻面名转化为相应层次的父子节点,并将待查询的刻面术语值(关键词)映射为叶节点。于是,教学资源的检索可以转化为查询树与库中每个资源刻面描述树之间的匹配,两棵树之间的匹配本质上是两棵树的节点之间的一个映射。根据对该映射所施加的约束条件的不同,匹配是相应的权值也不相同,然后根据返回的权值和的大小顺序呈现给用户。

4 匹配算法描述

输入:查询树Q,构件描述树库D。

输出:符合查询要求的构件集合S。

(1)R=O;

(2)令标志位值I=0.00;

(3)取出查询树的所有子节点及其对应的属性值;

(4)for教学资源库D中的每一棵资源描述树C;

(5)取出C的所有子节点及相应的权值H;

(6)取得查询树Q的节点集和权值集和资源树C的节点集和权值集并求交运算;

(7)while Q与C具有匹配的子节点时,取得子节点相对应的权值Hi并将其与I求和;

(8)保存每一次循环的I的值,并把I置零;

(9)for比较I的大小,并按从大到小顺序排列;

(10)根据I的顺序,返回其相对应树的集合S。

5 结语

刻面检索技术的描述树(匹配树)和检索树(查询树)的建立合理与否,将直接影响教学资源的检索效果。本文归纳总结了每种资源类型,格式,语种等在建树、检索、匹配等过程中,刻面术语(关键词)所应有的权重。使用户在检索的过程中,面对的是具有排行顺序的近似检索结果集,这些思想和方法将为检索其他教学资源库中的教学资源提供方法指导。下一步工作的重点是要深刻精化权值的分配。

[1]Winograd T.From computing machinery to interaction design[A].Denning P,Metcalfe R.Beyound Calculation;The Next Fifty Years of Computing[C].New York:Springer-Verlag New York Inc,1997:149-162.

[2]王莹,林雪峰,戴辉.基于叶节点包容匹配模型的构件检索算法研究[J].计算机工程与设计,2007,28:5979-5977.

[3]马卫娟,方志刚.人机交互风格及其发展趋势[J].航空计算技术,1999,29(3):16一20.

[4]孟祥福,马宗民.Web数据库近似查询结果自动排序方法[J].东北大学学报:自然科学版,2010,31,23-27.

[5]何飞,蒋冬初,向继文.教学构件的检索与匹配[J].吉首大学学报:自然科学版,2007,28:42-47.

猜你喜欢

术语教育资源检索
整合校外教育资源 做好青少年道德教育
专利检索中“语义”的表现
面向数字化教育资源的Flash到HTML5转换研究
自主学习视角下的开放教育资源文献综述(上)
有感于几个术语的定名与应用
从术语学基本模型的演变看术语学的发展趋势
“五老”是金钱买不到的优质教育资源
国际标准检索
国际标准检索