APP下载

开放环境下学习资源内容进化的智能控制研究

2013-04-29杨现民余胜泉

电化教育研究 2013年9期
关键词:学习资源智能控制

杨现民 余胜泉

[摘要] 开放环境下用户群体的复杂性和生产的自由化直接导致数字资源的爆炸式增长和无序进化。学习资源内容进化过程的智能控制,对于促进开放环境下学习资源的有序建设和进化发展具有重要意义。本研究提出一种综合应用语义基因和信任评估模型的内容进化智能控制方法。实践应用结果表明,该方法具有较高的智能控制准确率,能够有效减轻资源管理者内容审核的负担。

[关键词] 开放环境; 学习资源; 内容进化; 智能控制

[中图分类号] G434 [文献标志码] A

[作者简介] 杨现民(1982—),男,河北邢台人。博士,主要从事移动与泛在学习研究。E-mail:yangxianmin8888@163.com。

一、引 言

开放环境下的资源建设存在资源“杂乱”生长、质量难以保障等缺陷,严重影响开放学习资源的顺利建设和应用推广。维基百科完全开放式的编辑与组织方式使其质量和可靠性问题成为关注的焦点。[1]进行性学习资源保证了内容的及时性、适用性,更加适合非正式学习、终身学习的学习需求。[2]俗话说“没有规矩不成方圆”,不加控制与约束的资源进化必然导致“事与愿违”。Web2.0时代人人可以生产、消费、传播资源,用户群体的复杂性和生产的自由化直接导致数字资源的爆炸式增长和无序进化。因此,必须对资源的内容进化进行有效控制,方可保障资源进化的有序性和质量的可靠性。

网络课程是国际远程教育领域非常重要的一种资源形态。传统网络课程常采用一次性的“瀑布式”开发方法,建成后很少进行内容的变动,进化能力不足。进化式网络课程开发模型[3]通过对原型系统的渐进式开发,实现网络课程的版本更迭和进化发展,最终生成高质量的课程资源。国内有研究者设计了网络课程的内容进化机制,[4]提出采用严格的角色权限管理和版本控制技术实现对网络课程内容进化的控制。当前的网络课程建设无论采用何种创建模式和内容进化机制,在对课程内容进化的控制上基本都采用了相同的方法,即依赖课程建设团队的集体决策或课程教师的人工审核。此种方法的优点是进化控制的准确率高,比较可靠,有利于课程内容朝着理想的方向不断进化;缺点是需要过多的人工干预,控制周期较长,不利于资源内容的快速更新。

维基百科是以“协同创作”为核心特征的开放知识社区。在内容的进化控制上,维基百科主要采用的是一套基于人工协作的协调机制[5]和一系列的约束规则[6](3R规则、事实校验和实时同级评审规则等)来实现信息的有序进化。其他各种开放知识社区(百度百科、Google Knol、Freebase等)也基本上沿用维基百科的控制模式,在反馈、交流的基础上最终通过人工审核的方式实现内容版本的不断更迭和进化。近年来,一些研究者开始从信任的角度研究维基百科的进化控制,[7][8]通过构建信任模型计算词条或用户的可信度,以辅助用户判断词条的质量或编辑的可靠性。信任思想的引入,无疑给维基百科内容的有序进化提供了一种新的解决思路。语义维基[9]采用语义化的信息描述和组织方式,与维基百科相比,更容易基于语义信息开展一些上层应用。Denny Vrandeˇci'(2009)提出,可以通过约束语义(概念基数、定义域值域限制、属性限制等)进行自动化的内容检查,[10]但只提出了一个想法,并未对具体方法进行设计和予以实现。如何利用结构化语义信息控制外部资源的自动引入是亟须解决的关键问题。

总的来说,当前e-Learning领域的开放资源大都通过人工决策与手动版本审核的方式来实现对资源内容质量的控制。随着资源群体和用户群体规模的不断扩大,单纯依赖人工决策与手动版本审核来实现资源内容的有序进化已经无法满足泛在学习时代对资源进化性的需求,因此亟须探索一种智能化的、可以有效减轻资源管理者负担和压力、促进资源快速有序进化的智能控制方法。本研究提出一种综合应用语义基因和信任评估模型的内容进化智能控制方法,可以一定程度上减轻资源管理者人工审核内容版本的负担,促进学习资源内容的持续有序进化。

二、 学习资源的内容进化

学习资源的进化表现在两个方面:一是自身内容的逐步发展和完善;二是外部结构(资源之间的关联)的逐步丰富和优化。[11]可以将学习资源进化归纳为两种模式,分别是资源的内容进化和资源的关联进化。学习资源的内容进化是指学习资源通过开放的组织方式吸引多个用户参与内容的协同编辑,实现资源内容的快速更新和逐步完善,主要表现为资源内容版本的不断更新和发展。

如图1所示,用户首先生产出学习资源,然后对外发布,邀请协作者来编辑资源内容,由于资源对外开放,任何学习者都可以编辑已有的资源内容,添加文本、插入图片、嵌入外部链接等。随着资源的成长,越来越多的用户接触到该资源,开始发表评论、写笔记、作批注等。随着时间的推移和用户集体智慧的不断汇聚,资源的内容版本不断升级更新,最终形成高质量的、满足不同用户需求的学习资源。目前,大多数开放资源的内容进化都是通过协同编辑功能实现的,通过引入版本控制机制实现对资源内容的安全保护和进化控制。

三、内容进化智能控制技术

(一)相关假设

内容进化中的智能控制方法是基于两个基本假设进行设计和实施的。假设的内容如下。

假设1:内容进化是围绕特定主题的进化,内容的前后变化往往具有较强的语义相关性

一般而言,资源的内容进化具有很强的指向性,是围绕特定知识结构(语义基因)进化发展的。也就是说,资源内容要表达特定的主题,内容版本的更迭是对主题的不断丰富和完善。资源内容的前后变化往往具有较强的语义相关性,新增加的内容和语义基因具有一定的语义相似性。

假设2:高可信用户的行为往往比较可靠,倾向于善意的内容编辑

用户的信任度是基于信任评估模型,通过分析影响用户信任的各种交互数据计算得出。随着用户善意行为的积累,会不断提高其信任值。如果某用户的信任度超过一定数值,则认为该用户的绝大多数操作是可信的,其参与的内容编辑(增、删、改)可以被系统自动接受。

(二)总体技术框架

语义基因是指能够反映资源内容所要表达含义的基本信息单元,形式上表现为基于本体描述的带有权重的概念集合(包括核心概念以及概念间的关系)。社会信任模型是参照现实社会中的信任关系构建的一套可计算的信任评估技术,可用于评价代理、用户、资源等任何参与网络交互实体的信任度。

图 2描述了基于语义基因和社会信任评估模型的内容进化智能控制技术的总体框架。核心是综合两方面的信息进行内容编辑的可信度计算,一方面应用新添加内容的特征信息和当前资源的语义基因进行语义相似度计算结果;另一方面基于用户的交互操作数据应用社会信任模型计算用户的信任度。设定内容编辑可以被接受的可信度阈值,如果此次内容编辑的可信度超过阈值则自动接受此次内容编辑结果,否则,自动拒绝。

(三)关键技术介绍

上述技术框架的实现需要解决两大关键问题:一是如何自动提取学习资源的语义基因;二是如何构建开放环境下的社会信任评估模型,实现资源信任度和用户信任度的计算。接下来将对内容进化智能控制技术框架中的两大关键技术进行介绍,分别是学习资源语义基因的自动提取和信任评估模型的构建。

1. 学习资源语义基因提取

提取学习资源语义基因的前提是领域本体库的建立,语义基因本质上是基于本体的资源内容特征项,即用标准化的本体数据来表征资源的核心内容。关于语义基因的设置主要有两种方式:一种是手动设置,即让资源的创建者手动添加语义基因,从领域本体库中选择能够准确表征资源内容的本体类,并赋予不同的权重;二是自动提取,即通过程序从资源的文本内容中提炼出核心的语义特征项(概念)及其关系,并通过一定的规则为每个语义特征项赋予不同的权重。学习资源语义基因提取的总体技术框架如图 3所示。

为了从学习资源的内容中提取语义基因,需要将资源实体进行结构化表征。这里可以将学习资源实体用四元组表示Res =,Title表示资源的标题,Tag表示资源上附加的标签,Content表示资源的具体内容,SemanticData表示附加在资源上的基于本体的语义描述信息。Title、Tag、Content和SemanticData为语义基因提取的四种重要来源,在表征资源核心内容方面的重要程度不同。一般而言,资源的语义描述信息最为重要,SemanticData采用规范化的本体对资源内容进行描述,是获取语义基因非常重要的数据来源;其次,资源的标题也很重要,通过Title可以大体判断资源的核心内容,用户在检索、选择资源时也常常依赖标题;再次,资源的标签是创建者为了从整体上描述资源而附加的特征词,常常也会成为用户判断资源内容和选择浏览资源的重要依据;最后,资源的内容是对资源的详细描述,由于数据丰富,承载了资源所要表达的核心内容,因此,也常常作为文本特征提取的重要来源。

本研究假设在语义基因提取方面,SemanticData所占权重大于Title所占权重,Title所占权重大于Tag所占权重,Tag所占权重大Content所占权重。权重集合可以表示为WT={WT1, WT2, WT3, WT4},其中WT1表示SemanticData所占权重,WT2表示Title所占权重,WT3表示Tag所占权重,WT4表示Content所占权重。WT的初始值可以设置为WT = {0.4, 0.3, 0.2, 0.1}。

明确了语义基因提取四种重要数据来源及各自的权重后,接下来,借鉴Web数据挖掘领域较为成熟的文本特征项提取技术,同时结合领域本体库从资源中提取出一系列的特征词(核心概念),并将这些特征词映射到本体,存放到CS集合中。然后,通过预先设定好的特征评价函数为每个特征项赋予不同的权重值,将这些权重值放到WS集合中。最后,通过Jena框架将这些特征词在领域本体库中存在的语义关系以三元组的形式提取出来放到RS集合中。

2. 信任评估模型构建

自从1994年Marsh博士在其博士论文[12]中首次将社会网络中的信任关系引入到计算机网络环境之后,信任评估模型便开始在网络通信、电子商务等领域普及应用。近年来,少数e-Learning领域的研究者将信任的思想应用到虚拟学习社区的机制设计、[13]学习资源和学习路径的选择[14]等方面,但在信任模型的设计和应用研究上仍处于起步阶段。

如何判断资源和用户的可信度,如何帮助用户选择高可信度的知识,已经成为开放知识社区亟待解决的问题。本研究针对当前开放知识社区现有信任模型[15][16][17]设计的不足,结合现实社会中信任关系的特征,提出一种可以评价开放知识社区中用户信任度和资源信任度的双向互动反馈模型(Two-way Interactive Feedback Model, TIFM),如图4所示。TIFM包括资源信任度和用户信任度两个核心部件,二者相互影响。两侧是信任度的各项影响因素,中心是有关信任评估的四条假设。这里的信任指的是全局信任。资源信任度表示所有社区用户对资源节点的整体信任评价,用户信任度表示社区中的所有其他用户对当前用户的整体信任评价。

(1)资源信任度的影响因素

对于资源信任度可以从两个方面进行评价:一是针对资源的显性信任评价(直接评价),通过在社区中提供资源信任度投票评价功能,让用户进行主观的评价;二是通过记录、分析用户与资源的交互日志对资源信任度进行隐性的评价(间接评价)。

资源的显性信任评价:目前还没有统一的评价指标体系,各个社区结合自己的特征和需求,采用了不同的评价指标。维基百科从内容的可靠性、客观性、完整性、写作规范性等四个维度对词条进行评价。学习元网站从内容准确性、内容客观性、内容完整性、标注规范性、内容更新及时性等维度进行评价。百度百科、互动百科则直接采用五星级整体评分和对 “本词条对我有帮助”投票的方式进行评价。

资源的隐性信任评价:主要依赖用户与资源的交互记录,是一种基于交互过程性信息的间接评价,常见的交互操作包括协同编辑、订阅、收藏、浏览、引用等。当然,不同的社区由于软件功能设计上的差异,会支持不同类型的交互操作。实际上,用户与资源交互的背后一定程度上反映了用户对资源信任度的一种潜在评价。例如,越来越多的用户订阅资源A,客观上可以说明资源A比较具有吸引力、更为可靠。

(2)用户信任度的影响因素

开放知识社区中影响用户信任度的因素,一方面源于用户所创建资源的平均信任度,另一方面源于用户之间的交互记录,不同的交互行为代表了用户之间的隐性评价。影响用户信任度的常见因素包括以下几种。

创建资源的可信度:用户所创建资源的信任度会反过来影响用户的信任度,若用户A创建了很多高质量、高可信度的资源,则用户A的信任度会比较高。

被邀请协作或取消协作的次数:用户A邀请用户B可以视为用户A对用户B的一次正向投票,反之,取消协作可视为一次负向投票;当很多用户都邀请B协作编辑资源时,表明用户B具有较高的可信度。

被加为好友或取消好友的次数:用户A添加用户B为好友,可视为用户A对用户B的一次正向投票,反之,取消好友关系可视为一次负向投票;当很多用户喜欢添加B为好友时,表明用户B具有较高的可信度。

修订被接受或拒绝的次数:用户A编辑的内容被接受一次可以视为对用户A的一次正向投票,反之被拒绝一次可视为一次负向投票,用户A进行的内容修订被接受的概率越高,表明用户A越具有较高的可信度。

(3)信任评估的相关假设

{1}时间效应假设

信任具有时间衰减性,用户对资源的交互操作、用户对用户的交互操作对于信任的效用依赖于时间并有一定的期限,影响程度将随着时间的增长而逐渐减弱。也就是说,近期的交互操作与早期相同的交互操作相比,对信任度的影响程度更大。

{2}差异影响假设

不同用户对同一个客体(资源或用户)进行的相同的交互操作会对客体信任度的改变产生不同的影响。高可信度用户进行的操作更加值得信赖,对客体的影响值较大;反之,低可信度用户的操作对客体信任度的影响则较小。

{3}多数可靠假设

多数人参与的评价结果是可靠的,假定很多用户都对某资源进行了显性信任度投票,则该评价结果能较好地反映资源的真实信任度;反之,若只有少数几个用户参与了资源的显性信任度投票,则该评价结果将难以反应资源真实的可信度。

{4}交互影响假设

一个资源被用户引用、推荐、订阅、收藏的次数越多,则表明该资源越受欢迎、越值得用户信赖。同样,若一个用户被邀请协作的次数越多、被添加为好友的次数越多、修订的内容被接受的次数越多、创建高可信资源的数量越多,则表明该用户比较受其他用户认可,进行的操作行为比较可信。

(四)智能控制流程设计

不同的开放知识社区往往具有不同的角色和权限设置。总的来说,可以归总为两种角色:管理者和普通用户。管理者一般是资源的创建者,遵循“谁创建谁管理”的原则,具有对资源进行任何操作的权限。普通用户是无管理权限但可以参与内容编辑的用户。普通用户编辑的内容需要经过管理员审核后,方可正式对外公开。智能控制的目的是要实现普通用户内容编辑的(半)自动化审核,以减轻用户频繁手动审核资源内容的负担,加快资源内容的进化速度。

基于智能控制的两个基本假设,应用语义基因和信任评估模型设计了如图 5所示的开放环境下学习资源内容进化的智能控制流程。

当有普通用户编辑资源内容时,首先使用TIFM中提出的用户信任度计算方法,计算出该用户的信任值。再根据预先设定的用户高可信阈值HTT(High Trust Threshold),判断用户是否属于高可信度用户。如果是高可信度用户,则其对资源内容进行的增、删、改操作将默认为是善意的,系统将自动接受;如果该用户不是高可信度用户,则根据用户的不同操作进行处理;如果用户进行了“添加内容”操作,则通过文本比较算法获取用户新添加的文本内容。然后,对添加的内容进行文本特征项提取,将提取的文本特征项集和资源的语义基因进行语义相似度计算。如果相似度大于等于预设的新内容语义相似接受阈值SAT(Similarity Accept Threshold),则系统自动接受此次内容编辑;如果相似度小于等于预设的新内容语义相似拒绝阈值SRT(Similarity Reject Threshold),则系统自动拒绝此次内容编辑;若语义相似度介于SRT和SAT之间(SRT

四、智能控制效果检验

本研究选择学习元平台(Learning Cell System, LCS)[18]为实验环境,验证上述内容进化智能控制方法的应用效果。LCS是为泛在学习环境设计开发的一种新型开放知识社区,官方网址为http://lcell.bnu.edu.cn。LCS以学习元作为基本的资源单元,学习元[19]是一种语义化组织的学习资源,多个学习元可以聚合成知识群。自2011年9月上线以来,截至2013年1月25日,LCS已有注册用户7579人,12068个学习元,1232个知识群。

笔者于2012年2月1日正式在学习元平台中发布资源内容进化智能控制功能。截至2012年3月1日,运行整一个月。LCS平台开发了资源进化控制日志功能,详细记录了每条编辑记录的编辑时间、编辑原因、编辑者、审核结果与审核方式。这里的审核方式有三种,一是由学习元的管理者手动审核;二是由系统自动审核,即采用智能控制方法实现的自动审核;三是学习元的管理者和正式协作者进行的内容编辑不需要审核,即无需审核。

通过对2012年2月1日至2012年3月1日时间段LCS后台监控日志的数据统计,发现一个月内共有3938次的编辑记录。其中87.84%的内容编辑是由资源管理者和正式协作者完成的(无需审核),8.63%的内容审核是通过系统自动审核完成的,3.53%的内容审核是由人工审核完成的。除了无需审核的内容编辑外,共有497次编辑需要审核。在所有需要审核的内容编辑中,340次由智能控制程序自动审核(70.98%),139次由人工完成审核(29.02%)。结果表明,智能控制程序减轻了约70%的内容审核工作量。

在所有自动审核的编辑记录中,自动接受的总次数为277次,占自动审核总次数的81.47%;自动拒绝次数为63次,占自动审核总次数的18.53%。数据统计结果表明,2012年2月1日至2012年3月1日期间,LCS中绝大多数的编辑都被系统自动接受,同时也表明近期LCS平台中资源进化效果比较理想,恶意编辑较少。通过进一步对编辑者的数据进行分析,发现活跃的编辑用户绝大多数属于高可信度用户(Trust Value >0.6)。智能控制有一个默认的假设,即高可信度用户进行的操作是可靠的。因此,依据智能控制流程,这些高可信度用户进行的编辑操作会被系统自动接受。反过来,用户编辑的接受率又会影响用户的信任度,进一步提高善意用户的信任度,降低恶意用户的信任度。

为了进一步检验LCS平台中近三个月资源进化智能控制的效果,笔者随机从进化控制日志中审核方式为“自动”的150条记录进行了抽检,计算智能控制的准确率。结果显示,提取的150条编辑记录中,有124条的判断结果是正确的,准确率为82.67%。随着LCS中注册用户数量的增长,用户群体将越来越丰富,用户的操作也将越来越复杂和难以预测,智能控制的准确率还需要根据实际情况作进一步的统计分析,并依据结果不断完善智能控制方法。

五、 结论与展望

学习资源内容进化的智能控制研究对于促进开放环境下学习资源的有序进化具有重要意义。本研究提出一种综合应用语义基因和信任评估模型的内容进化智能控制方法。该方法可以对资源内容协同编辑的结果进行智能审核,实现对资源进化方向的智能控制,有效减轻资源管理者人工审核内容版本的负担。

本研究的不足之处在于:(1)难以对用户编辑的多媒体内容(如视频、动画等)实现有效的智能控制;(2)资源语义基因和资源/用户信任度的更新需要耗费大量的计算资源,导致难以实时反映资源语义基因和资源/用户信任度的变化,一定程度上影响了智能控制的准确率。

本研究的后续工作将聚焦在三个方面:(1)引入视频语义信息提取技术,将视频表达的语义信息转化为视频资源的语义基因;(2)研究语义基因的进化问题,在资源变动的同时实现语义基因的实时更新;(3)提高资源内容进化智能控制方法的运行效率,优化相关算法。

[参考文献]

[1] 王丹丹. 维基百科自组织模式下的质量控制方式研究[J]. 图书馆理论与实践, 2009, (8): 21~24.

[2] 杨现民, 余胜泉. 生态学视角下的泛在学习环境设计[J]. 教育研究, 2013, (3): 103~110.

[3] 王雅丽. 网络课程的进化式开发研究[J]. 教育教学论坛, 2011, (2): 137~139.

[4] 谭霓, 余胜泉, 吕啸. 网络课程的内容进化机制设计与技术实现[J]. 远程教育杂志, 2011, 29(1): 80~84.

[5] Aniket Kittur, & Robert E. Kraut. Harnessing the Wisdom of Crowds in Wikipedia: Quality through Coordination[A]. Proceedings of the 2008 ACM Conference on Computer Supported Cooperative work[C]. November 08-12, San Diego, CA, USA.

[6] 罗志成, 付真真. 外部因素对维基百科序化过程的影响分析[J]. 图书情报知识, 2008, (3): 28~33.

[7] B. Thomas Adler , Krishnendu Chatterjee , Luca de Alfaro , Marco Faella , Ian Pye , & Vishwanath Raman. Assigning Trust to Wikipedia Content[P]. Proceedings of the 4th International Symposium on Wikis, September 08-10, 2008, Porto, Portugal.

[8] Silviu Maniu, Talel Abdessalem, & Bogdan Cautis. Casting A Web of Trust over Wikipedia: An Interaction-Based Approach[P]. Proceedings of the 20th International Conference Companion on World Wide Web (WWW '11). ACM, New York, NY, USA, 87~88.

[9] M. Krotzsch, D. Vrandecic, M. Volkel, H. Haller, & R. Studer. Semantic Wikipedia[J]. Journal of Web Semantics, 2007, (5): 251~ 261.

[10] Denny Vrandeˇci'c. Towards Automatic Content Quality Checks in Semantic Wikis[DB/OL].http://www.aaai.org/Papers/Symposia/Spring/2009/SS-09-08/SS09-08-017.pdf,2012-10-12.

[11] 杨现民, 余胜泉. 泛在学习环境下的资源进化模型构建[J]. 中国电化教育,2011,(9): 80~85.

[12] Marsh, S.. Formalising Trust as A Computational Concept[D]. Scotland: University of Stirling, 1994.

[13] 王淑娟, 刘清堂. 虚拟学习社区信任机制的研究[J]. 远程教育杂志, 2007, (3): 12~15.

[14] Mason, Jon; Lefrere, Paul .Trust, Collaboration, e-Learning and Organisational Transformation[J]. International Journal of Training & Development,2003, 7(4):259~270.

[15] B. Thomas Adler , Krishnendu Chatterjee , Luca de Alfaro , Marco Faella , Ian Pye , & Vishwanath Raman. Assigning Trust to Wikipedia Content[P]. Proceedings of the 4th International Symposium on Wikis, September 08-10, 2008, Porto, Portugal.

`[16] Sara Javanmardi, Cristina Lopes, & Pierre Baldi. Modeling User Reputation in Wikis[J]. Statistical Analysis and Data Mining. 2010, 3(2):126~139.

[17] Silviu Maniu, Talel Abdessalem, & Bogdan Cautis. Casting A Web of Trust over Wikipedia: An Interaction-Based Approach[P]. Proceedings of the 20th International Conference Companion on World Wide Web (WWW '11). ACM, New York, NY, USA, 87~88.

[18] 杨现民, 余胜泉. 学习元平台的设计开发及其应用场景分析[J]. 电化教育研究, 2013, (3):55~61.

[19] 余胜泉, 杨现民, 程罡. 泛在学习环境中的学习资源设计与共享——“学习元”的理念与结构[J]. 开放教育研究, 2009, 15(1): 47~53.

猜你喜欢

学习资源智能控制
车载充电机的电瓶电压采样及处理
智能控制在机器人领域中的应用
基于物联网的智能控制项目实践教学设计
基于新技术环境下的自主学习
中等职业教育中教育技术的应用研究
基于大数据背景下的智慧化环境艺术设计教学
应用型人才培养导向下智能控制教学改革探讨
舞台演出智能多媒体多网合一系统的研发与应用
基于大学生成才的移动学习软件应用调查研究
浅谈开关式电梯IC卡系统及展望