基于术语抽取技术的新闻新词发现方法研究
2014-03-08梁颖红
张 苏,梁颖红,牛 丽
(苏州市职业大学 计算机工程学院,江苏 苏州 215104)
基于术语抽取技术的新闻新词发现方法研究
张 苏,梁颖红,牛 丽
(苏州市职业大学 计算机工程学院,江苏 苏州 215104)
新闻新词的识别在中英文翻译、手机应用推送等方面有着重要作用.通过对网络新闻新词的使用情况、新闻新词的来源和特点的分析,提出一种基于混合策略的高精度长术语抽取技术新闻新词发现的方案.在通过预处理的网络新闻语料中,计算基于词汇NC-value值的互信息以确定词汇内部结构的结合性,通过新闻新词规则处理进行新闻新词发现.
中文信息处理;新词发现;互信息;NC-value
在中文信息处理中,没有被收录在分词词表中,但应该切分出来的词称为未登录词.未登录词包含了命名实体,例如人名、地名、机构名、专有名词等,未登录词还包含缩写词、新增词汇等.在中文信息处理中,未登录词的识别是中文分词的基础工作[1].
在新词的发现和研究中,汉语言文学方向的学者多是从语言的发展过程、词群的突发现象进行研究,例如文献[2]以“X男”、“X女”为代表研究汉语新词群的内部结构、形成特点和发展趋势.文献[3]提出了类词缀的概念,研究词根和词缀的关系以及基于类词缀的新词确定.文献[4]研究汉语新闻新词的来源构成.文献[5]从网络术语、身势情态语符号、数字谐音词和字母词的角度讨论了网络新词的来源.文献[6]从词长、语义、词群化方面研究了新词的特点,以及单纯新词语和合成新词语的语义建构特点和分类.文献[7]研究新词语法结构中聚合和组合的语言规则.文献[8]研究新闻新词的来源和新闻中新词使用的规范.
在数据挖掘和信息处理领域涉及新词处理的研究有:文献[1]提出一种面向大型语料库的基于词频信息和模式串垃圾词过滤方法的新词发现方法.文献[9]提出一种利用文本挖掘技术的专业词库新词关联发现方法;文献[10]提出一种基于NC-value参数和互信息的长术语抽取方法.
1 新闻新词的含义
新闻新词指的是在新闻语言中所出现的最近词汇,通常反映了当前社会关注的焦点,是近期出现的热点事件和热点现象的总结,通常具有丰富的衍生含义,指代某种流行现象、热点事件或者是近期大众关心的人和事.
新闻新词作为词库中未收录的词语,其发现工作也属于未登录词识别的一种应用.对于未登录词的识别的研究重点主要是命名实体等,词性主要为名词,在句子中担任固定的句法功能.而新闻新词构词形式丰富,不仅可能是名词、动词、形容词等,也可能是个复合短语,新闻新词通常表现了目前公众关心的热点信息,包含以下几类:
1)代表热点事件.如“中国好邻居”、“朕略萌”、“锤子哥”、“球嫂”、“中国大妈”等.
2)最近爆红的人名.如“古川雄辉”、“林萧”、“周崇光”等.
3)网络用语.如“天朝”、“魔都”、“滚粗”、“卤煮”、“碎觉”、“镇楼”等.
新闻新词的来源可以分为缩略词、外来词、复合词、生造词、新词词群五种.
1)缩略词.一般用简短的表达表示一个完整、固定的意思.例如高大上(高端、大气、上档次)、累觉不爱(很累,感觉自己不会再爱了)、不明觉厉(虽然不明白你在说什么,但是听起来感觉很厉害的样子)、喜大普奔(喜闻乐见、大快人心、普天同庆、奔走相告)、人艰不拆(人生已经如此艰难,有些事情就不要拆穿了)、十动然拒(十分感动,然后拒绝了他).
2)外来词.一般为音译词,它的特点是多数无内部结构.例如:古川雄辉、林赛罗韩、阿特拉斯(机器人)、索契(冬奥会)、杀马特.
3)复合词.在新闻新词中最多,很多是由有二三个内部结构的字词形成一个新的表达,描述一个特定事件.例如,吞钉认亲、东九涂鸦墙、异形老宅、神秘好人、百万租女友、最炫护路风、汉字英雄.
4)生造词.在网络环境中凭空造一个词出来,部分生造的词会得到广泛认可成为新的流行词汇.例如,“天朝”、“魔都”、“滚粗”、“卤煮”、“碎觉”、“镇楼”.
5)新词词群.例如,中国好**(中国好声音、中国好学姐、中国好邻居),**哥(犀利哥、锤子哥、章鱼哥),**党(高三党、标题党、寂寞党、砸贴党、百度党、拍砖党、熊猫党),**族(蚁族、啃老族、月光族).
根据以上的分析,新闻新词出现比较多的情况有具有内部结构的复合词,完全没有内部结构的词以及新词词群.因此,考虑计算新词内部的结合性,将结构性明显的词和完全没有结构性的词以及根据词群词缀过滤出来的词进行进一步的提取,在技术上参考长术语抽取方法来实现.
2 新闻新词发现方法
基于混合策略的高精度长术语抽取技术的新闻新词发现方法,其步骤如图1所示.
使用网络蜘蛛从因特网上下载新闻网页,对新闻网页进行去噪处理,保留新闻文本和主要标记.对文本进行粗切分生成生语料库,在对生语料进行进一步处理时,采用基于NC值的候选术语抽取技术,根据上下文信息库和术语词性构成规则计算NC值,计算基于NC值的互信息值.再根据互信息值提取新闻新词的候选语料,选出重复字符串中内部结合明显且互信息高的词以及重复字符串中内部字间互信息低的词,以及含有典型词缀的重复词,对于选出的词根据规则进行去除垃圾串和新词提取.
图1 基于混合策略的高精度长术语抽取技术的新闻新词发现方法
3 基于混合策略的高精度长术语抽取技术
对于新词识别的方法,分为基于规则和基于统计两个方法,目前大部分的研究者都采用规则和统计相结合的方法提取新词[11].
考虑到新闻新词中一部分词内部结构稳定互信息值高,一部分词内部无结构互信息值极低,以及一部分基于典型词缀的词语的发现,参考长术语自动抽取技术[10]中内部结构互信息的计算方法实现新闻新词发现.
该方法设计了一个参数NC-value,该参数用于反应上下文信息,通过词汇在较长的候选词中出现的频率来确定.抽取过程从具有最大长度的字符串开始计算,记a为候选字符串,Ca代表a的上下文词汇的总和,fa(b)代表b在a的上下文中出现的次数,weight(b)代表b在上下文中的权重,其计算方法为
式中:weight表示a的上下文词汇合集;t(m)表示和词语m一起出现的术语个数;n表示所有被考虑的候选术语的总个数.NC-value参数的计算方法为
式中:t(a)表示a在较长的候选术语中出现的频率;C(a)表示候选术语;f(a)表示a在语料中出现的频率.互信息指的是两个事件集合之间的相关性,两个事件X和Y的互信息的计算公式为
利用互信息计算一个字符串的内部的结构度,互信息值越高,X和Y组成短语的可能性越大;互信息值越低,X和Y值组成短语的可能性越小.其中
N为全部候选串的C-value之和,基于NC-value参数的X和Y的互信息MI值计算公式为
使用NC-value和互信息相结合的方法抽取新闻新词候选词的基本思路如下:
1)对生语料进行文本粗切分;
2)根据上下文信息库和术语词性构成规则计算候选术语的NC值;
3)根据候选术语内部结构的NC值计算互信息值;
4)根据互信息值确定内部结构的结合性,将互信息值大于指定阈值以及小于指定阈值的词汇作为新闻新词的候选词汇;
5)根据新闻新词的组成规则和新闻文本信息筛选和确定新闻新词.
4 结论
通过对新闻新词的类型和来源的分析,研究了新闻新词的特点,根据新闻新词内部结构明显、内部无结构和典型词缀词群3个特点,借鉴术语抽取技术中的互信息计算方法,提出一种新闻新词发现方法.将围绕新闻新词的出词效果,研究生语料的预处理和标注以及新闻新词的语法规则做进一步研究,以提高出词的准确率和召回率.
[1]崔世起,刘群,孟遥,等.基于大规模语料库的新词检测[J].计算机研究与发展,2006(5):927-932.
[2]黄娟.“X男”、“X女”新词群研究[D].扬州:扬州大学,2011.
[3]沈光浩.汉语派生词新词语研究[D].河北:河北师范大学,2012.
[4]罗辉.汉语新闻新词汇来源简析[J].重庆科技学院学报:社会科学版,2012(2):130-131,153.
[5]李薇薇.汉语语境下的网络新词语研究[D].汕头:汕头大学,2003.
[6]游玉祥.新词语的特点分析及其认知解释[D].上海:上海外国语大学,2012.
[7]曹起.新时期现代汉语变异研究[D].吉林:吉林大学,2013.
[8]栾建伟.新闻中新词新语运用及规范[J].写作,2008(2):34-37.
[9]李宝虹.基于统计特征和语法结构的汉语新生词汇的识别[J].情报科学,2013(8):94-97.
[10]梁颖红,张文静,周德富.基于混合策略的高精度长术语自动抽取[J].中文信息学报,2009(6):26-30.
[11]张海军,史树敏,朱朝勇,等.中文新词识别技术综述[J].计算机科学,2010(3):6-10,16.
(责任编辑:李 华)
Research on News Neologisms Identifcation with Long Term Extraction Technology
ZHANG Su,LIANG Ying-hong,NIU Li
(School of Computer Engineering,Suzhou Vocational University,Suzhou 215104,China)
The news neologisms identification technology can be used in such areas as English-Chinese translation,mobile software information push and so on.This paper frst analyzes the usage of news neologisms,then the origins and features of news neologisms.A News Neologisms Identifcation method is proposed,which is based on a hybrid strategy with high precision long terms’extraction for high precision.Based on the preprocessed network news corpus,the mutual information value is calculated by the NC-value parameter so as to ascertain the associativity of inner structure of words and expressions in an effort to discover news neologisms by means of flter rules.
Chinese information processing;news neologism identifcation;mutual information;NC-value
TP391
A
1008-5475(2014)03-0014-03
2014-05-12;
2014-06-01
国家自然科学基金资助项目(61100138);苏州市云计算及智能信息处理重点实验室开放基金项目(SXZ201303);苏州市科技计划项目(SZS201201);江苏省教育科学“十二五”规划课题资助项目(C-b/2013/03/005)
张苏(1979-),女,江苏苏州人,讲师,硕士,主要从事智能信息处理、自然语言处理方向研究.