基于AJAX技术的中文术语抽取系统的设计与实现
2016-11-25张昭楠
张昭楠
(陕西职业技术学院 陕西 西安 710000)
基于AJAX技术的中文术语抽取系统的设计与实现
张昭楠
(陕西职业技术学院 陕西 西安 710000)
文中从用户需求的角度出发确定并设计实现了基于AJAX技术的中文术语抽取技术,在用户角度层面上将系统飞卫3个相互联系的子系统,即中文术语抽取、中文定义抽取和基于用户反馈的自学习系统,并且对3个子系统的功能和任务进行了划分。本文还采用两种语料分别对中文术语定义抽取系统和中文术语抽取系统进行了一定的测试,测试结果表明系统的准确性相较于之前的系统提升了40%,达到了63.75%,召回率可以达到78.84%,并且在人性化和人机交互等方面都去了很大的创新和改进。
AJAX技术;中文术语抽取;系统设计;系统测试
随着信息社会的不断发展,信息传递与交流已经成为现代化工作运作的重要基石[1]。而可读性文本信息作为一种不可或缺的载体长期以来扮演者非常重要的角色。问题是如何帮助人们快速定位信息,从而更加准确便捷的获取信息成为了迫切需要解决的问题,所以文本内容的理解和信息抽取技术越来越被关注和认可,其中术语的抽取则变得越来越重要。
AJAX技术室多种技术的集合体,其中囊括了Asynchronous、XHTML、Javascript等部分。与传统的Web应用不同的是,AJAX技术独特的异步交互过程可以在用户和服务器之间形成一个中间媒介。在利用AJAX技术的情况下,能给ISP、开发人员和用户等端对端角色带来切实的好处与便捷,有如下4点:
1)服务器减负。AJAX技术的一个运行原则就是按需取数据[2],这就可以大大避免过多的冗余数据请求,真正达到为服务器减负的目的;
2)不需要频繁刷新就可以实时对页面进行更新,这就使用户减少了等待时间,从而大大提升了用户体验;
2)除了服务器端存储的数据,还可以方便的调用外部数据;
3)AJAX技术都是基于标准化的协议进行编写的程序,是可以被广泛支持的[3],所以就不需要下载其余插件或者子程序。
1 系统的需求分析
1.1 对功能的需求分析
我们设计此款基于AJAX技术的中文术语抽取系统的主要目的有两点:
1)使用户能在阅读相对专业性的文档或文本信息时可以快速定位文章中提到的术语并且可以快速获取术语的科学定义,从而优化用户的阅读体验;
2)通过对术语准确的理解和定义,给相关行业的从业者或者科学研究人员提供深层次的技术支持。
1.2 对性能的需求分析
此款基于AJAX技术的中文术语抽取系统的目标就是建立一个较为完整的软件生态,在满足用户日常阅读体验和增进阅读效率的同时还需要根据用户的反馈进行自学习,这样做到使系统更加智能,系统功能性更加完善。所以基于以上的考虑,就需要系统满足以下要求:1)准确性;2)可扩展性;3)友好的用户界面。
2 中文术语抽取系统设计与实现
2.1 中文术语抽取子系统的流程设计
根据上述本文提到的系统要实现的功能和原则,将基于AJAX技术的中文术语抽取系统的设计分为5个大的步骤[4],即通过预料获取的途径和特征进行模型的强化训练和记忆,对包括但不限于分词和词性标注进行词法分析,遴选候选术语词,用训练好的模型对文本进行术语在词性层面上的识别,对选择好的术语词进行二次过滤,最终呈现给用户。基于以上设计步骤,就可以得出以下的术语抽取流程图:
图1 基于AJAX技术的术语抽取系统设计流程图
下文将着重介绍每个步骤采用的方法及实现方式。
2.2 训练语料的构建
基于AJAX技术的抽取方法需要术语数据库作为支撑,且由于术语的属性使得其对领域的概念非常敏感[5],不同行业领域可能使术语的语言构成大相径庭。一般而言,我们会对相关权威的百科网站进行超链接关联,并且采用半人工半自动的方法来获取术语,这个方法的核心要素是通过一个候选术语队列来不断地扩展相关页面,并从页面上获取可能成为术语的词或者链接,并通过系统的自学功能来进行不断的优化,并判断其是否加入某个领域的术语候选队列[6]。
根据上述的指导思想,本文通过此种方法获得了3K+的相关术语领域词汇,摘要如表1所示。
表1 相关领域术语分类摘要表
这些词语基本覆盖了计算机技术相关的各个领域,符合上文所提出的要求和原则,可以用来进行试验验证。
2.3 系统中术语特征的获取和模型的训练
由于系统本身受到诸如没有合适的全文语料等限制[7],我们从术语本身来获取特征,就需要对术语进行分词和词性的标注,也就是说需要将一个具有复合语拆分成很多简单词的组合并且标出每一个词的词性。在此种情况下,本系统与第三方合作开发具有分词剖析功能的分词定义辨别抽取的复合系统,如与哈尔滨工业大学的IRLAS,测试表明该系统的准确率和召回率达到了97.8%和98.2%。
根据大量的实验和观察发现,术语大多数都是名词短语,而名词短语的构成是有规律可言的,比较常见的有形容词与名词结构构成的方式,通常意义上的属概念就是术语的语义特征,我们将这个概念也应用在系统对术语词性特征分析上来。大量实践证明,同一个领域的术语在字面上也有很多相似的地方,如领域名称+名词的构成,我们在系统设计上也把这种局部相似的现象看做是领域术语的一个特征。
基于以上的分析和测试,我们可以得到术语的特征向量表如表2所示。
表2 术语特征向量表
为实现上述功能,我们设计了一个特征提取器,专门用来抽取一个词的特征,这个词可以使术语也可以是非术语。使用该特征提取器就可以从候选样本提出模型正例。
训练模型可以近似简化为如下结构:
开放测试:导入模型文件进行加载实例测试,就可以完成对模型的训练和使用。
2.4 术语过滤系统
使用AJAX技术抽取出来的术语基本上可以达到非常高的准确率,但是并不完美,还会存在一定的误差因素,通过大量的研究实践表明[8],错误识别的术语大多数是人名、地名等,为此,我们又加入了过滤条件进行二次遴选,这样就可以基本上得出比较准确的术语提取。术语过滤条件表如表3所示。
表3 术语二次过滤遴选条件
3 中文术语抽取系统的测试结果
在系统完成编写和基本流程运作后,我们对系统的诸如召回率,错误率进行了分析,采用与第三方系统比对的方式来进行,其中阈值F指的是系统计算得出该词是术语的概率,表4给出了相关计算结果。
表4 实验结果比对
通过上表显示的计算结果,阈值的提高使得精确率也为之提高,但是同时使得召回率有了下降,这里面必定存在一个平衡点,从上表可以看出这个平衡点就是阈值为0.87时,此时系统的召回率和准确率都有了很大的提升,超出了第三方将近1个百分点。
在本系统中还存在术语错误提取,通过分析可以总结出错误主要存在于下面几个方面的影响:
1)训练语料的限制,因为机器学习方法是基于样本的,所以有可能会随机组合出很多无效的词汇,这对于抽取结果有很大影响;
2)过分依赖分词机制的结果,分词系统虽然相对具有代表性,但对于一些生僻术语词汇却并不一定适用,这就导致抽取结果与样本筛选出现一定比例的错误;
3)最大熵与术语过滤本身的缺点,这一点主要是原理上的近似逻辑计算导致的,是不可避免的。
4 结束语
文中在分析了中文术语抽取系统的必要性和功能需求的基础上,利用AJAX技术设计了一套中文术语抽取的系统,其中,运用到了特征分词的方式和最大熵的原理。文中对系统的运行流程和判断依据步骤进行了较为详细的阐述和论证,取得了一定的成果。利用AJAX技术编写了一个特征提取器程序,这位系统运行中的准确率和召回率有了很大的提升,在最后的实验测试表中,得出了阈值对于系统准确率和召回率的影响因素,并寻找到当阈值F=0.87时系统可以达到相对平衡。
中文术语抽取系统的设计对于我们在信息社会快速获取知识方面起到了重要的作用,为行业的发展起到了进一步有益的推动作用,当然,本系统还存在着一定的错误率,在以后的版本改进中将试图解决这一问题。
[1]李卫.领域知识的获取[D].北京:北京邮电大学,2008.
[2]吴云芳,穗志方,邱利坤,等.信息科学与技术领域术语部件描述[J].语言文字应用,2004,6(l):174-182.
[3]胡文敏,何婷婷,张勇,等.基于卡方检验的汉语术语抽取[J].计算机应用,2007(12):3019-3020,3025.
[4]British Standard Institution.BS EN 50160:2007 Voltage characteristics of electricity supplied by public distribution system[S].2007.
[5]IEEE Standards Coordinating Committee 22 on Power Quality,IEEE Std 1159-1995[C]//IEEE Recommended Practice for Monitoring Electric Power Quality,ISBN-1-55937-549-3,1995.
[6]李勇.基于聚类方法对特定领域术语的自动筛选[J].计算机工程与科学,2008(2):64-66,134.
[7]韩客松,王永成,陈桂林.无词典高频字串快速提取和统计算法研究[J].中文信息学报,2001(2):23-30.
[8]张榕.术语定义抽取、聚类与术语识别研究[D].北京语言大学,2011.
[9]王萌,李春贵,唐培和,等.一种主题句发现的中文自动文摘研究[J].计算机工程,2007,33(8):180-181.
[10]Berger A L,Pietra V J D,Pietra S A D.A maximum entropy approach to natural language processing[J].Computational Linguistics,1996,22(1):39-71.
[11]姜柄圭,张秦龙,谌贻荣,等.面向机器辅助翻译的汉语语块自动抽取研究[J].中文信息学报,2007,21(1):9-16.
[12]何燕,穗志方,段慧明,等.一种结合术语部件库的术语提取方法[J].计算机工程与应用,2006,42(33):4-7.
[13]赵玉.试论科技汉语词汇的特点[J].产品安全与召回,2006(3):21-24.
[14]杜波,田怀凤,王立,等.基于多策略的专业领域术语抽取器的设计[J].计算机工程,2005,31(14):159-160.
[15]张锋,许云,侯艳,等.基于互信息的中文术语抽取系统[J].计算机应用研究,2005,22(5):72-73.
Design and implementation Chinese term extraction system based on AJAX technology
ZHANG Zhao-nan
(Shaanxi Vocational and Technical College,Xi'an 710000,China)
From the perspective of the user needs to determine the design and realization of the Chinese Term Extraction Based AJAX technology technology,the user point level system will Feiwei three interrelated subsystems,namely Chinese term extraction,Chinese custom extraction and based on user feedback the self-learning system,and the functions and tasks were divided into three subsystems.It also uses two definitions of the terms corpus respectively for Chinese and Chinese extraction system terminology extraction system for a certain amount of testing,test results show that the accuracy of the system compared to the previous system upgrade by 40%to 63.75%,can recall It reached 78.84%,and in terms of humanization and humancomputer interaction have gone to great innovation and improvement.
AJAX technology;Chinese term extraction;system design;system test
TM933.4
A
1674-6236(2016)18-0044-03
2016-03-24 稿件编号:201603335
张昭楠(1986—),女,陕西渭南人,硕士研究生,助教。研究方向:中国古代文学,语言学及应用语言学。