APP下载

基于WEB热词挖掘的热点方向预测

2017-11-30林翰轩耿琛明史景宏南京理工大学电子工程与光电技术学院

数码世界 2017年11期
关键词:词库高频词分词

林翰轩 耿琛明 史景宏 南京理工大学电子工程与光电技术学院

基于WEB热词挖掘的热点方向预测

林翰轩 耿琛明 史景宏 南京理工大学电子工程与光电技术学院

文章需要解决的是当前热点领域的分析以及未来热点领域的预测,同时对最终目标“基于WEB热词挖掘的热点方向预测”进行合理化建议。针对当前领域分析,文章收集大量近期发布的文本数据,确保时效性,对高频词汇进行了统计,并进行了当前热点领域的分析;对于未来热点领域的预测,文章在数据收集时便对发布数据的时间段、时间跨度做了规定,并结合权威网站以及专家评论,对未来领域做出预测,从而保证预测结果的合理性。

大数据 神经网络模型 主成分分析

1 引言

随着大数据时代的来临,网络信息量以爆炸式增长。在此环境下,为了更好的应对包括确定投资方向在内等各类问题,如何更高效地获取有效信息亟待进一步的解决。文章针对如何从大量数据中提取出特定时期高频出现的热点词的问题,建立了基于神经网络算法的分词模型和基于主成分分析法的综合评价机制。

2 热词挖掘模型的构建

2.1 基于神经网络的关键词提取模型

本模型在对目标文章进行整体分词的基础上,对所输出的有效分词进行频率统计,最终确定查找所需的关键词。具体步骤如下:首先,对整篇文章中的语句进行分词处理;而后,对所分得的分词进行人工干预:将单字分词、代词分词等无关词语剔除,在一定程度上减少接下来需要比对的样本的大小;对剩余的分词按照频率大小由高到低进行排序;将所得的分词序列以10个/组进行划分,分别于词库进行比对,进行所得分词的可靠性分析;将符合条件的分词作为文章的关键词。

基于BP(Back Propagation)神经网络的分词模型构建如下:

定义2:针对应用域(Application domain)的词汇集(词库):

一般地,可以省去针对某种应用域的限制,认为任何词库都是针对一种应用的,νd简记为ν,于是⋆v表示在ν的词汇串集合。

Seg(w,k)=1就表示w是词;Seg(w,k)=0就 表 示w不是词。一般来说,当把κ退化为一个词库ν时,

2.2 基于多元分析的高频词热度评价模型

由于统计的高频词并不一定是关键词,故通过如下公式计算所选高频词的热度:其中,xi为该词汇在第i个网站的全部所给文档中出现的频率,βi为该网站的可信度系数,受到网站规模、样本密度等多方面因素影响。

3 基于当前网络数据对当前投资领域的判断以及未来投资领域的预测

在大量网络数据的匹配以及基于上述两个高频词热度计算的基础上,文章结合数据挖掘中的相关理论以及部分经济分析中的分析要素以及相应原理,考虑了风险和回报率两个因素对投资方向的确定的影响。针对此次收集到的数据,根据分析,文章认为电子商务以及通信领域是当前投资的热点领域。在之前的数据统计当中,文章发现科技在热点词汇中占有一定的比重,在近期的数据统计中科技依然占有一定比重,此外,智能手机、云数据等随着科技发展而衍生的新型词汇,以及互联网,京东等电子商务平台亦占有较大的比重,故文章认为通信和电子商务是当前投资的热点领域。为了更好地实现这一领域的突破与进展,文章特作出如下建议:

(1)建立完善的网络权威或可信度评价体系:该体系既可具体针对某一领域,可针对特定人群,也可综合多个领域对相关网站进行综合性评价(如百度,新浪,谷歌,维基等);(2)WEB热点信息的动态观察和及时更新;(3)挖掘算法在海量数据挖掘时的适应性和时效性研究;(4)热门站点可及时提供当前热点词以特工个性化服务,并在此基础上进行网站整体性能最优化的研究;(5)分析研究分类和聚类在信息采集领域的研究,避免歧义的出现

4 结论

经过数据统计与模型模拟分析,实现投资趋势以及投资效益的预测过程中较重要的一步便是WEB大数据的挖掘,具有极强的实用性,但同时这也是一个较新的研究领域。文章经过数据筛选认为通信和电子商务是当前投资的热点领域。

[1]王敬,中文文档分类中若干关键技术的研究,湖北工业大学硕士学位论文,2007

[2]王俊义,HTML文本自动分类技术的研究与工具的实现,内蒙古大学硕士学位论文,2004

[3]Youby,数据挖掘国内外研究现状,http://wenda.so.com/q/1365725240061485,2016.5.22

[4]何嘉,基于遗传算法优化的中文分词研究,电子科技大学博士学位论文:2012年,8~66

[5]李庆虎,陈玉健,孙家广,一种中文分词词典新机制— —双字哈希机制,中文信息学报,第17卷第4期:2002,15~18。

猜你喜欢

词库高频词分词
30份政府工作报告中的高频词
省级两会上的高频词
分词在英语教学中的妙用
28份政府工作报告中的高频词
省级两会上的高频词
一“吃”多用
输入法词库取证比较研究
结巴分词在词云中的应用
结巴分词在词云中的应用
输入法词库乾坤大挪移