基于本体的综合评价文本自动生成系统研究
2014-03-16殷红梅
殷红梅
(健雄职业技术学院,江苏 太仓 215411)
基于本体的综合评价文本自动生成系统研究
殷红梅
(健雄职业技术学院,江苏 太仓 215411)
随着信息技术的高速发展,信息处理已经成为目前最重要的研究内容,如何从大量的相关信息中获取我们需要的且相对准确的信息已经成为当前社会的一大难题。本文针对这一问题展开研究,通过对大量评语文本的分析,提出了一种基于本体的综合评价文本自动生成的方法,可以快速处理大量评语文本,从而自动获取相应的综合评价文本。
本体;信息抽取技术;综合评价
1.引言
在日常生活中,我们对任何事物一般都有一个相对综合的评价。这个综合评价如何得来?主要是从日常的信息中提取归纳而来。这看上去是一个无形的过程,但目前许多企事业单位为了获取有效的综合评价,通常会采取大量的调研,从多份调查表中提取信息来形成一个综合的评价。这个过程目前大多都是经过人工的数据采集和分类汇总,加上人类思维活动来完成的,整个过程工作量大,通常只是形成一个评价结果,而且会掺杂着许多主观因素,形成的综合评价结果不够客观。如果由计算机去完成这个过程,通过对语义的分析理解和推理,形成一个相对客观的评价文本,这无疑将会更利于我们客观地了解事物各方面的情况,同时降低人们的工作量,提高工作效率。
2.关键技术及概念
2.1 本体
本体起源于一个哲学上的概念,所以从哲学的范畴来说,本体是客观存在的一个系统的解释或说明,体现的是客观现实的抽象本质。近几年来,随着信息技术需求的不断增强,计算机技术的发展日新月异,面对信息时代怎样组织、管理和维护大量信息,并为用户提供行之有效的服务,已经成为当前一项紧迫的研究课题。为了达到这些要求,本体作为一种能在知识和语义层次上描述信息系统的建模工具,从被提出以来就引起了国内外的关注,并在计算机的各个领域得到了大量的应用。因此,我们将本体的概念引入信息抽取技术的领域,通过对特定领域的信息进行抽取并整合,形成特定事物的综合评价。如果能将这个思路通过计算机来实现,这将是一项有意义而又具有挑战性的工作。
2.2 基于本体的信息抽取技术
基于本体的信息抽取技术是一种把信息技术和本体结合起来实现信息抽取的一种技术,它是当前研究的一个热点。基于本体的信息抽取技术通过研究描述本体的概念、关系以及层次结构间的约束等来生成抽取规则,然后依据相应的规则对输入的文本信息进行抽取。在信息抽取系统中,一般首先对要处理的文本先进行常量和识别关键字等预处理,然后依据本体生成的相应规则对预处理后的文本信息进行匹配抽取,其次分析汇总抽取的结果,最后写入对应的数据库。
2.3 模糊综合评价的方法
在实际工作中,我们对一个事物的评价常常涉及很多方面。这样对事物做出评价就需要依据多个因素,而不能只依据某一因素去评价事物,这就是综合评价。模糊综合评价先对多种模糊性因素进行单一因素评价,然后根据事先制定的规则集进行模糊推论,最后根据一定的原则对评价结果进行解释。
3.基于本体的评语信息抽取的工作流程
(1)首先建立评语的领域本体,它包含了所描述领域的关系、概念、约束等信息。本文根据实际工作需要,构建了一个简单的教师评语本体。
(2)通过本体解析器解析本体领域,将其中所包含的所有领域信息抽取出来形成一个本体框架。在本系统中是把这些信息写入到数据库。
(3)对评语源文本进行预处理,利用语法分析来简化文本中的繁杂结构,特别是针对一些程度副词和特殊句式抽取等常见问题,提出相应的处理办法。
(4)运行词库编辑模块,本体关系概念的关键字都由它来管理,把这些也写入数据库。
(5)将预处理模块得到的结果和字典编辑模块的关键字进行匹配,最后把匹配结果也写入数据库的本体框架中。
4.综合评价文本自动生成系统的设计
4.1 综合评价体系结构的构建
构建一个全面合理的评价系统需要进行大量的调研,这将消耗大量的人力和物力。由此我们可以把之前创建的评语本体体系活用过来,这样就能很好地获取评语文本的层次框架,也就获取了综合评价的评价指标。这里我们以教师的评价体系为例,可以建立一个二级的综合评价指标体系。具体的体系结构如下:
(1)教书育人
①敬业爱岗
②责任感
③教风
(2)教学内容
①教学理念
②知识更新
③理实一体
(3)教学态度
①工作热情
②课前准备
③课后辅导
(4)教学方法
①调动学生的主动性
②现代化教学方法的使用
③因材施教
(5)教学能力
①专业知识②语言表达
③教学方法的灵活运用
④创新改革精神
4.2 词语的量化
为使计算机能处理文本从而获得文本的综合评价,这就要求计算机在处理评语文本的过程中能理解语义,为此我们可以人为地通过词语的量化来达到目的。以有关“教学态度”词汇表中的部分词为例,其量化如表1所示:
表1 教学态度词汇表
量化表完成后我们就可以对本体实例中对应的属性值进行量化,并且很容易得到一个实体属性的综合隶属度。得到综合隶属度之后,我们就需要找到一个能确切地描述该隶属度的词,这就需要完成“由值到词”的转换,但我们计算出的综合隶属度可能找不到完全适合的对应词,所以在具体处理过程中我们可以对指标做一个定性的量化,可以把隶属度范围的区分为优秀、良好、中等、较差四类,如表2所示:
表2 隶属度等级表
其次为每一个量化的等级找到相近的词语,作值到词的对应。如表3所示。量化的工作完成后我们就可实现综合评价文本的自动生成。
表3 属性参考词表
4.3 综合评价文本的自动生成
基于模糊理论和结构化文本获取的基础,我们能够很容易地获取到综合的结构化评语文本,最后只需要把得到的综合结构化评语文本按照指定的模式进行填充,就可以获得一条客观的综合评语文本。现以5个学生对同一教师的评语为例说明实现过程,如表4所示:
表4 综合评语自动生成系统处理源数据
为了获得一条综合的评语文本,我们需要把每个学生写的评语文本进行结构化,并写入到对应教师的数据库表中,最终形成如图1所示的结果:
图1 教师数据表
我们通过对结构化评语进行解析,得出了每条评语的分项属性隶属度和综合的隶属度。再对照隶属度等级表和属性词参考表,获取分项属性评价词。从而定制综合评价的框架文本,将评价词填入对应空缺中,获得如图2结果:
图2 综合评价自动生成界面
5.结束语
本文结合基于本体的信息抽取技术,建立了综合评价的分析模型,提出了一种基于本体的综合评价文本自动生成的方法,并建立了一个从文本中获取信息自动生成综合评价的演示系统。该系统能够利用不同的学生的评语,自动生成对某一教师的综合评价,大大减轻了的传统评价工作的工作量,也使的评价工作更为客观合理。
[1]刘迁,焦慧,贾惠波.信息抽取技术的发展现状及构建方法的研究[J].计算机应用研究,2007,7,24(7):6-9.
[2]孙玉娣,张玉强.基于本体的综合评价自动生成系统研究[J].情报杂志,2007,2.
[3]陈兰.基于Ontology的信息抽取系统的研究与实现[D].电子科技大学,2004,10.
[4]李向阳,苗壮.自由文本信息抽取技术[J].情报科学,2004,22 (7):815-821,829.
[5]刘文彬,模糊综合评价系统研究与实现[D].河北工业大学,2003.
Research of Comprehensive EvaluationAutomatic Generation System Based on Ontology
Yin Hongmei
(Chien-Shiung Institute of Technology,Taicang 215411,Jiangsu)
tract】With the rapid development of information technology,information processing has become the most important research content.How to get what is necessary and relatively accurate information from a large amount of information has become a big problem in current society.Aiming at this problem and based on the analysis of lots of comment texts,this paper puts forward a kind of method for automatic generation of the comprehensive evaluation of text based on ontology,which can rapidly process large amount of texts,and automatically obtain the corresponding comprehensive evaluation of text.
words】ontology;information extraction;information extraction technology
殷红梅,女,江苏太仓人,工程硕士,讲师,研究方向:计算机应用技术研究。