Web2.0技术和文本挖掘方法对CBR用户体验影响的研究
2014-09-22洪霞
关键词:案例推理;文本挖掘;Web2.0;用户体验
摘要:目前许多CBR系统面临着案例过时、数量停滞、用户参与程度低等可持续性发展问题。为了鼓励用户参与CBR系统的使用,促进CBR系统的发展,提出了一种基于Web2.0技术和文本挖掘的CBR系统框架。利用该框架可以提高用户体验。案例分析结果显示,文本挖掘和Web2.0技术可以为CBR系统带来额外的价值,并对CBR系统的开发和设计提供了新的思路。
中图分类号:G250文献标识码:A文章编号:1003-1588(2014)07-0115-03
收稿日期:2014-06-19
作者简介:洪霞(1974-),连云港职业技术学院图书馆馆员。1前言
基于案例推理(Case-Based Reasoning, 简称为CBR)方法自出现以来就得到了研究者的重视。所谓CBR方法,就是利用已有的案例,通过类比和联想来解决当前相似问题的推理方法[1]。由于CBR克服了传统基于规则推理系统的知识难于获取和推理的脆弱性等缺陷[2],有越来越多的研究者开始重视CBR。
目前对CBR的研究大多侧重于CBR系统推理过程的理论方面,而缺乏对用户体验以及CBR系统接口的相关研究。已有研究[3]发现,为了促进CBR系统的应用,就必须研究CBR系统用户体验的影响因素,并以此设计CBR系统。笔者主要探讨利用文本挖掘和Web2.0技术改进并提高CBR系统的用户体验。
2文献述评与理论背景
2.1基于案例推理(CBR)的概述
基于案例推理(CBR)是人工智能(Artificial Intelligence,AI)领域中一种基于知识的问题求解和学习方法,是一种典型的利用已有的案例和经验进行推理的新问题求解机制[4]。
通俗地说,CBR工作原理是模仿人们的认知心理过程[5]:首先,在CBR中,以案例为基础进行推理,把人们以往的经验存储成一个个的案例,当一个行为主体面临一种崭新的情况或问题时,对案例进行搜索,能够定位到与当前所遇情况完全吻合的案例,则直接将其处理方案付诸应用。其次,如果对找到的案例有不满之处,就可以进行调整与修正以适应当前情况,修改后的范例将被再次存入范例库,以便下次使用时作为参考[6]。因此,基于上述的工作原理,一个完整的CBR系统的基本工作流程包括检索、重用、修正和存储4个阶段组成的一个循环过程[7]。从CBR工作原理和流程可以看出,CBR系统的核心就是案例库的建设。
2.2文本挖掘概述
文本挖掘可以看做是数据挖掘技术与文本处理技术的结合,涉及数据挖掘、机器学习、统计学、自然语言处理、数据库技术等多个学科领域的知识和技术[8]。它的主要任务是从大量文本数据中提取以前所未知的、有用的、可理解的模式或知识的过程。一般而言,一个完整的文本挖掘过程包括文本预处理、文本挖掘、文本挖掘结果评估和利用等多个步骤。
2.3Web2.0概述
Web2.0作为新一代的互联网应用模式,已经深刻影响着人们对信息的生产、组织、传递、开发和利用的观念。在Web2.0平台中,网络内容的产出主要来自用户,每一个用户都可以生成自己的内容,并将这些内容进行传播、交流与共享[9]。Web2.0最大特点是个人化、去中心化,同时强调社会化,以及强调开放、共享,强调参与、创造。
目前已有一些Web2.0技术的工具得到了广泛应用,如用户利用RSS在不打开网站内容页面的情况下阅读支持RSS输出的网站内容;Blog可以让个人在Web上表达自己的想法,获得兴趣相同者的反馈并与其交流;Wiki网站是一种基于共同创作的网站;Tag是一种更为灵活、有趣的日志分类方式等。3基于Web2.0和文本挖掘构建提高CBR系统用户体验因为CBR方法的目的是帮助人们解决问题,那么CBR系统开发人员在系统设计与开发过程中,需要分析、检验不同用户的行为,然后针对这些行为提供支持方法。因此,如何帮助CBR开发者建立一个高效的CBR环境,以提高CBR系统的用户体验和使用效率成为CBR相关研究的重点。本研究目的是通过利用文本挖掘和Web2.0技术的加入,以提高CBR系统用户的体验,最终有利于构建高效的CBR系统。
在对Web2.0和文本挖掘相关理论进行分析的基础上,结合以往学者对基于网络的CBR系统和实现技术的研究成果[10],本研究构建了一个用于提高CBR系统用户体验的框架模型。本模型框架旨在为用户提供从案例库中寻找相关案例最有效的方式。图1描述了如何实现这一目标的模型框架。
首先,文本挖掘可以提取出一系列由关键词、概念和分类术语组成的列表,这些列表可以用于帮助生成案例库的索引,从而方便用户在案例库中快速地找到自己所需的信息;其次,文本挖掘的结果有助于确定标引词的权重和不同索引词之间的相似性,甚至可以针对具体的案例文本生成摘要,可以为用户节约阅读案例的时间,提高效率;最后,通过文本挖掘可以把案例库的大量案例按照其自身特点进行聚合,形成分类存储,同时这种分类聚合也是一种阅读案例的方法。
在本框架中,用户通过使用Web2.0技术的相关工具,可以更加有效地检索、利用、分享案例库中的相关案例,从而在CBR工作流程中发挥更加重要的作用。这一框架的创新之处在于通过为查询、浏览案例增加了新的接口功能,新加入的功能可以进一步提高案例库中案例格式及表达样式。图1添加Web2.0技术和文本挖掘的CBR系统框架4实例分析与验证
本研究提出的框架不但可以提高CBR系统的使用效率,同时也将丰富用户的使用体验。为了验证研究框架的效果,笔者将选用一个已开发使用的CBR系统——KITE(Knowledge Innovation for Technology in Education)项目的成果作为试验对象,分别进行文本挖掘和Web2.0工具中Blog的使用效果进行验证。
洪霞:Web2.0技术和文本挖掘方法对CBR用户体验影响的研究洪霞:Web2.0技术和文本挖掘方法对CBR用户体验影响的研究KITE项目是美国密苏里大学哥伦比亚分校的信息技术与学习科技研究所建立的一个服务于K-16(幼儿园至大学连贯教育)实践的知识库。为了实现这一目标,项目为教师和教育工作者设计了一个运用CBR方法的知识库,即技术集成案例库[11]。
4.1文本挖掘对KITE CBR系统的作用
基于已有的研究文献[12][13],文本挖掘的步骤类似于数据挖掘。因此,本文将采用三个步骤对KITE项目的CBR系统中的案例进行文本挖掘,如图2所示。图2CBR系统案例文本挖掘步骤流程图4.1.1预处理阶段。KITE中CBR系统的案例库目前存储有超过1,200个完整的案例,每个案例都是介绍教师如何解决在课堂上涉及的技术问题的故事。基于试验证明目的,本研究从案例库的“特殊教育”目录下选取了50个案例,利用文本编辑软件,把每个案例的内容的文本进行复制、粘贴为一个文本文件,为接下来的文本挖掘做好准备。
4.1.2文本挖掘阶段。文本收集工作完成后,就可以针对文本集合的关键词、概念和类别运用文本挖掘的相关算法,如概念提取、分类、聚类等进行处理。在这一阶段中,CBR系统的开发者可以使用一种或几种挖掘工具(例如SPSS Clementine、NVivo 9)进行文本分析和挖掘。
4.1.3文本挖掘结果评估和利用阶段。当利用文本挖掘工具生成结果后,CBR系统开发人员需要对文本挖掘结果进行认真的评估和分析,以确定挖掘产生的新知识。通常情况下,CBR系统中运用的文本挖掘是一个迭代循环周期,需要对挖掘结果进行持续评估和检查[14],并可能需要回到前面的步骤,再次选择文本挖掘算法,通过测试不同的系统参数,以优化文本挖掘的结果。最后,挖掘出来的知识需要运用到决策和行动中,使新知识可以用来引导、促进、改善和提高CBR系统。
endprint
通过上述的三个步骤,本研究发现了KITE CBR系统一些需要改进的缺陷。首先,虽然KITE中的案例库进行了分类,但是这种分类缺少相应的索引词,导致无法利用相关的关键词在案例库中检索类似的案例。其次,KITE中对案例的摘要并不能完全反映利用文本挖掘得到的关键词和概念,导致人们在仅阅读这些摘要时可能会误解或遗漏这些案例的真实意义。因此,在CBR系统中运用文本挖掘技术对案例进行处理,可以增加系统的使用效果,并解决KITE CBR系统目前的缺陷。例如,文本挖掘的结果可以用来支持或加强案例库的搜索、浏览或演示的效果。
4.2Web2.0技术工具对KITE CBR系统的作用
Web2.0技术的相关工具很多,在本研究中选用Blog来验证Web2.0技术对CBR系统的作用。笔者随机选取并分析了使用KITE的39个学生(21个男生和18个女生)的Blog,并以此来评价Blog对KITE的CBR系统的影响。
案例研究的目的是检验学生利用基于技术支持的学习计划进行学习的经验,以及他们对Blog和KITE的CBR系统整合的看法。因此,我们设计了一系列相关的问题并在选定的Blog进行问卷调查。在问卷中有几个问题是关于评价Blog和KITE系统整合,以及建立协作社区的影响。
通过对问卷的收集,以及对选定的每个Blog的评论进行认真的收集与分析,结果显示:32人(83%)认为,案例库(如KITE案例库)是一种有效的工具,它可以帮助用户方便地创建学习计划;23人(58%)认为,一个结合了KITE案例库的Blog网站有助于用户在制订学习计划时,花费较少的时间和精力。此外,针对Blog评论内容的分析也证实,Blog有助于学生彼此学习并建立协作学习社区。大多数参与者都认为利用Blog有助于他们更好地了解KITE案例库,也帮助他们了解别人在学习计划上的观点。因此, Web2.0技术对CBR系统的建设和用户具有积极的意义。
5研究结论及未来展望
为了改善CBR系统,本文提出一个采用文本挖掘和Web2.0技术工具的框架。利用这个框架,CBR系统开发者找到了提高和改善用户体验的方法。实例研究也证明了本文提出的框架和方法具有更广泛的适用性。同时,研究框架和方法对于提高用户的体验,解决CBR系统的可持续发展以及潜在质量问题方面是有效的。显然,这也对其他类似的知识系统建设具有参考作用。
参考文献:
[1]A.Aamodt,E.Plaza.Case-Based Reasoning:Foundational Issues,Methodological Variations, and System Approaches[J].AI Communications,1994(1):39-59.
[2]孙洁丽,张荣梅.基于案例推理的数字图书馆个性化推荐系统研究[J].情报科学,2008(9):1380-1384.
[3]He,W.,Erdelez, S.,& Wang,F. K.Examining a case-based reasoning system using mental models as a framework[J].International Journal of Learning Technology,2010(1):63-79.
[4]J.L.Kolodner..An introduction to case-based reasoning[J].Artificial Intelligence Review,1992(1):3-34.
[5]LENZ M.Case-based reasoning:from foundations to applications[M].Berlin:Springer,1998.
[6]张俊杰.企业知识管理中的案例推理思路与系统架构[J].情报杂志,2011(5):130-133.
[7]A.Aamodt,E.Plaza.Case-Based Reasoning:Foundational Issues,Methodological Variations,and System Approaches[J].AI Communications,1994(1):39-59.
[8]郭金龙,许鑫.数字人文中的文本挖掘研究[J].大学图书馆学报,2012(3):11-18.
[9]王伟军,甘春梅.图书情报学视角的Web2.0研究综述[J].中国图书馆学报,2011(11):67-80.
[10]Wu He.Improving user experience with case-based reasoning systems using text mining and Web 2.0[J].Expert Systems with Applications,2013(40):500-507.
[11]Wang, F., Moore, J., Wedman, J. et al..Developing a case-based reasoning knowledge repository to support a learning community——An example from the technology integration community[J].Educational Technology Research and Development,2003(3):45-62.
[12]Liu, B., et al..Distributed Data Mining for E-Business[J].Information Technology and Management,2011(1):1-13.
[13]Duan, L., Street, W. N., et al..Healthcare information systems: data mining methods in the creation of a clinical recommender system[J].Enterprise Information Systems,2011(2): 169-181.
[14]Romero, C., & Ventura, S..Educational data mining: A survey from 1995 to 2005[J].Expert Systems with Applications,2007(33):135-146.
(编校:崔萌)
endprint
通过上述的三个步骤,本研究发现了KITE CBR系统一些需要改进的缺陷。首先,虽然KITE中的案例库进行了分类,但是这种分类缺少相应的索引词,导致无法利用相关的关键词在案例库中检索类似的案例。其次,KITE中对案例的摘要并不能完全反映利用文本挖掘得到的关键词和概念,导致人们在仅阅读这些摘要时可能会误解或遗漏这些案例的真实意义。因此,在CBR系统中运用文本挖掘技术对案例进行处理,可以增加系统的使用效果,并解决KITE CBR系统目前的缺陷。例如,文本挖掘的结果可以用来支持或加强案例库的搜索、浏览或演示的效果。
4.2Web2.0技术工具对KITE CBR系统的作用
Web2.0技术的相关工具很多,在本研究中选用Blog来验证Web2.0技术对CBR系统的作用。笔者随机选取并分析了使用KITE的39个学生(21个男生和18个女生)的Blog,并以此来评价Blog对KITE的CBR系统的影响。
案例研究的目的是检验学生利用基于技术支持的学习计划进行学习的经验,以及他们对Blog和KITE的CBR系统整合的看法。因此,我们设计了一系列相关的问题并在选定的Blog进行问卷调查。在问卷中有几个问题是关于评价Blog和KITE系统整合,以及建立协作社区的影响。
通过对问卷的收集,以及对选定的每个Blog的评论进行认真的收集与分析,结果显示:32人(83%)认为,案例库(如KITE案例库)是一种有效的工具,它可以帮助用户方便地创建学习计划;23人(58%)认为,一个结合了KITE案例库的Blog网站有助于用户在制订学习计划时,花费较少的时间和精力。此外,针对Blog评论内容的分析也证实,Blog有助于学生彼此学习并建立协作学习社区。大多数参与者都认为利用Blog有助于他们更好地了解KITE案例库,也帮助他们了解别人在学习计划上的观点。因此, Web2.0技术对CBR系统的建设和用户具有积极的意义。
5研究结论及未来展望
为了改善CBR系统,本文提出一个采用文本挖掘和Web2.0技术工具的框架。利用这个框架,CBR系统开发者找到了提高和改善用户体验的方法。实例研究也证明了本文提出的框架和方法具有更广泛的适用性。同时,研究框架和方法对于提高用户的体验,解决CBR系统的可持续发展以及潜在质量问题方面是有效的。显然,这也对其他类似的知识系统建设具有参考作用。
参考文献:
[1]A.Aamodt,E.Plaza.Case-Based Reasoning:Foundational Issues,Methodological Variations, and System Approaches[J].AI Communications,1994(1):39-59.
[2]孙洁丽,张荣梅.基于案例推理的数字图书馆个性化推荐系统研究[J].情报科学,2008(9):1380-1384.
[3]He,W.,Erdelez, S.,& Wang,F. K.Examining a case-based reasoning system using mental models as a framework[J].International Journal of Learning Technology,2010(1):63-79.
[4]J.L.Kolodner..An introduction to case-based reasoning[J].Artificial Intelligence Review,1992(1):3-34.
[5]LENZ M.Case-based reasoning:from foundations to applications[M].Berlin:Springer,1998.
[6]张俊杰.企业知识管理中的案例推理思路与系统架构[J].情报杂志,2011(5):130-133.
[7]A.Aamodt,E.Plaza.Case-Based Reasoning:Foundational Issues,Methodological Variations,and System Approaches[J].AI Communications,1994(1):39-59.
[8]郭金龙,许鑫.数字人文中的文本挖掘研究[J].大学图书馆学报,2012(3):11-18.
[9]王伟军,甘春梅.图书情报学视角的Web2.0研究综述[J].中国图书馆学报,2011(11):67-80.
[10]Wu He.Improving user experience with case-based reasoning systems using text mining and Web 2.0[J].Expert Systems with Applications,2013(40):500-507.
[11]Wang, F., Moore, J., Wedman, J. et al..Developing a case-based reasoning knowledge repository to support a learning community——An example from the technology integration community[J].Educational Technology Research and Development,2003(3):45-62.
[12]Liu, B., et al..Distributed Data Mining for E-Business[J].Information Technology and Management,2011(1):1-13.
[13]Duan, L., Street, W. N., et al..Healthcare information systems: data mining methods in the creation of a clinical recommender system[J].Enterprise Information Systems,2011(2): 169-181.
[14]Romero, C., & Ventura, S..Educational data mining: A survey from 1995 to 2005[J].Expert Systems with Applications,2007(33):135-146.
(编校:崔萌)
endprint
通过上述的三个步骤,本研究发现了KITE CBR系统一些需要改进的缺陷。首先,虽然KITE中的案例库进行了分类,但是这种分类缺少相应的索引词,导致无法利用相关的关键词在案例库中检索类似的案例。其次,KITE中对案例的摘要并不能完全反映利用文本挖掘得到的关键词和概念,导致人们在仅阅读这些摘要时可能会误解或遗漏这些案例的真实意义。因此,在CBR系统中运用文本挖掘技术对案例进行处理,可以增加系统的使用效果,并解决KITE CBR系统目前的缺陷。例如,文本挖掘的结果可以用来支持或加强案例库的搜索、浏览或演示的效果。
4.2Web2.0技术工具对KITE CBR系统的作用
Web2.0技术的相关工具很多,在本研究中选用Blog来验证Web2.0技术对CBR系统的作用。笔者随机选取并分析了使用KITE的39个学生(21个男生和18个女生)的Blog,并以此来评价Blog对KITE的CBR系统的影响。
案例研究的目的是检验学生利用基于技术支持的学习计划进行学习的经验,以及他们对Blog和KITE的CBR系统整合的看法。因此,我们设计了一系列相关的问题并在选定的Blog进行问卷调查。在问卷中有几个问题是关于评价Blog和KITE系统整合,以及建立协作社区的影响。
通过对问卷的收集,以及对选定的每个Blog的评论进行认真的收集与分析,结果显示:32人(83%)认为,案例库(如KITE案例库)是一种有效的工具,它可以帮助用户方便地创建学习计划;23人(58%)认为,一个结合了KITE案例库的Blog网站有助于用户在制订学习计划时,花费较少的时间和精力。此外,针对Blog评论内容的分析也证实,Blog有助于学生彼此学习并建立协作学习社区。大多数参与者都认为利用Blog有助于他们更好地了解KITE案例库,也帮助他们了解别人在学习计划上的观点。因此, Web2.0技术对CBR系统的建设和用户具有积极的意义。
5研究结论及未来展望
为了改善CBR系统,本文提出一个采用文本挖掘和Web2.0技术工具的框架。利用这个框架,CBR系统开发者找到了提高和改善用户体验的方法。实例研究也证明了本文提出的框架和方法具有更广泛的适用性。同时,研究框架和方法对于提高用户的体验,解决CBR系统的可持续发展以及潜在质量问题方面是有效的。显然,这也对其他类似的知识系统建设具有参考作用。
参考文献:
[1]A.Aamodt,E.Plaza.Case-Based Reasoning:Foundational Issues,Methodological Variations, and System Approaches[J].AI Communications,1994(1):39-59.
[2]孙洁丽,张荣梅.基于案例推理的数字图书馆个性化推荐系统研究[J].情报科学,2008(9):1380-1384.
[3]He,W.,Erdelez, S.,& Wang,F. K.Examining a case-based reasoning system using mental models as a framework[J].International Journal of Learning Technology,2010(1):63-79.
[4]J.L.Kolodner..An introduction to case-based reasoning[J].Artificial Intelligence Review,1992(1):3-34.
[5]LENZ M.Case-based reasoning:from foundations to applications[M].Berlin:Springer,1998.
[6]张俊杰.企业知识管理中的案例推理思路与系统架构[J].情报杂志,2011(5):130-133.
[7]A.Aamodt,E.Plaza.Case-Based Reasoning:Foundational Issues,Methodological Variations,and System Approaches[J].AI Communications,1994(1):39-59.
[8]郭金龙,许鑫.数字人文中的文本挖掘研究[J].大学图书馆学报,2012(3):11-18.
[9]王伟军,甘春梅.图书情报学视角的Web2.0研究综述[J].中国图书馆学报,2011(11):67-80.
[10]Wu He.Improving user experience with case-based reasoning systems using text mining and Web 2.0[J].Expert Systems with Applications,2013(40):500-507.
[11]Wang, F., Moore, J., Wedman, J. et al..Developing a case-based reasoning knowledge repository to support a learning community——An example from the technology integration community[J].Educational Technology Research and Development,2003(3):45-62.
[12]Liu, B., et al..Distributed Data Mining for E-Business[J].Information Technology and Management,2011(1):1-13.
[13]Duan, L., Street, W. N., et al..Healthcare information systems: data mining methods in the creation of a clinical recommender system[J].Enterprise Information Systems,2011(2): 169-181.
[14]Romero, C., & Ventura, S..Educational data mining: A survey from 1995 to 2005[J].Expert Systems with Applications,2007(33):135-146.
(编校:崔萌)
endprint