基于短文本的舆情本体概念的抽取研究
2018-07-12查晨刘胜全
查晨 刘胜全
摘要:针对现有的本体学习方法难以适应短文本类型新闻媒体资讯由原来的长文本转为短文本的情形。本文提出了一种“基于短文本的舆情本体概念的抽取方法”。短文本语料经过词频统计,其词频呈现数据稀疏现象,经过词频调整后参加后续概念抽取过程。短文本的描述信息较差。如果采用向量空间模型来表征短文本会造成向量空间的语义缺失和高维稀疏,所以本文使用集合空间来计算文档相似度,抽取与主题相关的核心概念。实验结果理想。
关键词:舆情本体;概念抽取;短文本;集合
中图分类号:TP31 文献标识码:A 文章编号:1009-3044(2018)14-0219-02
Abstract: In view of the existing ontology learning method, it is difficult to adapt to short text type news media information from original long text to short text. This paper proposes a "short text based ontology concept extraction method". After word frequency statistics, short word frequency data show sparse data. After word frequency adjustment, it takes part in subsequent concept extraction process. The description information of short text is poor. If using vector space model to characterize short text will cause semantic loss and high dimension sparsity in vector space, this paper uses set space to calculate document similarity and extract the core concepts related to the subject. The results of the experiment are ideal.
Key words: public opinion ontology; concept extraction; short text; gather
1 引言
隨着信息技术的快速发展,人们对网络信息的需求越来越旺盛,个人手机的普及促使短文本型新闻大量产生,成为网络舆情的重要载体,将从短文本语料中抽取到的舆情知识形成舆情本体,可持续支持后期的舆情分析与监管。
2 相关工作
由于计算机无法直接使用短文本的文字,所以计算机首先需要建立短文本表示模型来描述短文本特征。因短文本的实时特点,基于向量空间模型的聚类方法应用到社交网络短文本时面临着复杂度高、特征稀疏度高、噪声干扰大等。所以本文使用集合空间替代向量空间来计算文档相似度。
由于短文本的稀疏性,所以它的特征空间维数大。国外M Sahami TD Heilman等人使用搜索引擎返回的有关信息作为扩展值[1];Danesh Irani等人扩充twitter上的话题趋势作为特征项[2];Xuan-HieuPhan使用主题模型的隐含主题作为特征项[3];Bharath Srkam用短文本的作者的个人注册信息作为特征项[4]。国内王鹏等利用依存关系抽取上下位词扩充短文本特征集合[5];宁亚辉等提出基于领域词语本体的短文本分类[6];王细薇等人引入知网语义信息,用FP.Growth方法挖掘数据的扩展关系来分类[7]。以上方法全是学者研究短文本的特征提取扩展方式,但并没有考虑到使用数学工具来调整统计词频的方式,以达到缩短特征项计算时间。
3 基于短文本的舆情本体概念抽取方法
本文受舆情本体概念的抽取研究[8]的启发,针对短文本的两个问题,分别使用算法予以解决。
3.1短文本文档相似度
短文本的实时性强,数量庞大,这些都要求处理短文本的方法需要具有较高效率,这就要求短文本相关的计算具有很高的处理速度,为此本文提出简化算法。相似度主要取决于两个短文本的共现词语。如图1,C为短文本A特征词集合和短文本B特征词集合的交集,集合C的元素个数即为共现数。
当使用集合空间算法时,计算短文本A和短文本B的共现数作为短文本A和短文本B的相似度的参数,共现数是两个集合交集的元素数目,因为n大于m,相似度为共现数除以m。集合空间的计算公式为
因为n大于m,且n接近于m,所以向量空间算法的时间复杂度[O(3×m2)]远大于集合空间算法的时间复杂度[O(n×m)]。
3.2 短文本词频数据稀疏
短文本的长度一般不超过200字,篇幅短小,缺失上下文,常产生维度灾难,难以有效的提取短文本特征项。存在数据稀疏现象[9]。Good-Turing估计是很多数据平滑技术的核心,本文提出:由于短文本字数最大为200,中文词组一般为两个汉字,所以短文本出现的词频最多为100,最少为零,而0-100的数据跨度对于短文本来说还是太大。如果通过词频调整算法,将其数据跨度压缩至1-11以内,从而完成后续的概念抽取。
数据平滑算法公式如下:
3.3 短文本语料库
语料库是按照规则,去收集的自然语言数据集合,主要服务于自然语言的研究。今日头条是一个开放内容并去中心化的平台。它通过分析用户的需求、兴趣、位置、评论、性别、年龄、职业、学历、收入、性格等特点,通过特殊的引擎进行个性化内容推荐。该平台具有以下4个特点:(1)社交用户的阅读行为分析;(2)复杂中文自然语言处理;(3)机器学习的推荐引擎;(4)实时海量数据处理。
本文按抽取时间从网络短文本流(今日头条、一点资讯等)中抽取短文本形式的数据,经过数据处理,最后基于 Single-Pass聚类识别主题从而抽取主题概念。
4 结论
本文针对短文本的两个特性,引进两个解决方案。使用集合空间来计算文档相关度。使用数据平滑算法公式来调整统计词频。实验取得较好结果。下一步工作是进一步减少本文算法消耗时间。
参考文献:
[1] Sahami M,Heilman T D.A web-based kernel function for measuring thesimilarity of short text snippets[C]//Proceedings of the 1 5th international conference on World Wide Web.ACM,2006:377—386.
[2] Phan X H,NguyenL M,Horiguchi S.Learning to classify short and sparse text&web; with hidden topics from large—scale data collections[C]//Proceedings of the1 7th international conference on W0rld Wide Web.ACM,2008:9 1—1 00.
[3] Sriram B,Fuhry D,Demir E,et a1.Short text classification in twitter to improve informatieln filtering[C]//Proceedings of the 33rd international ACM SIGIR conference on Research and development in information retrieval.ACM,201 0:841.842.
[4] Irani D,Webb S,Pu C,et a1.Study of trend-stuffing on twitter through text classmcation[C]//Collaboration,Electronic messaging,Anti-Abuse and Spam Conference(CEAS).20 1 0.
[5] 王鵬,樊兴华.中文文本分类中利用依存关系的实验研究[J].计算机工程与应用,2010,46(3):131r133.
[6] 宁亚辉,樊兴华,吴渝.基于领域词语本体的短文本分类[J].计算机科学,2009,36(3):142-145.
[7] 王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009(3).
[8] 张学芳, 刘胜全, 刘艳. 舆情本体概念抽取研究[J]. 新疆大学学报(自然科学版) 2016,03(33),333-337.
[9] 王达, 崔蕊. 数据平滑技术综述[J]. 电脑知识与技术, 2009 ,5(17).