面向微博的灾难供需分析研究
2020-02-03黑龙孙育华黄成哲吕松涛赵峰吕瑞高佳明赵金梅
黑龙 孙育华 黄成哲 吕松涛 赵峰 吕瑞 高佳明 赵金梅
摘要:随着移动互联网的蓬勃发展,以微博等为代表的网络媒体已经成为人们生活中不可缺少的重要组成部分。在灾难发生时,微博中包含了大量有关灾难的实时信息。对于救灾工作而言,信息的时效性最为重要,如何快速地掌握灾难信息以及物资的供给信息是一个难题。微博为灾难时供需分析提供了重要的参考价值。本文以此为出发点,应用人工智能技术,识别灾难发生时与供需相关的微博,并对供需关系进行了匹配。
Abstract: With the rapid development of mobile Internet, the Internet media represented by microblog has become an indispensable part of people's life. When disaster happens, microblog contains a lot of real-time information about disaster. For disaster relief work, the timeliness of information is the most important, how to quickly grasp disaster information and material supply information is a problem. Microblog provides an important reference value for the analysis of supply and demand in disaster. Based on this, this paper uses artificial intelligence technology to identify microblogs related to supply and demand when disasters happen, and matches the supply and demand relationship.
关键词:微博;灾难信息;需求微博;供给微博;供需匹配
Key words: microblog;disaster information;demand microblog;supply microblog;supply and demand matching
中图分类号:TP37 文献标识码:A 文章编号:1006-4311(2020)02-0224-02
1 概述
Twitter等微博网站已经成为灾害事件信息的重要来源。然而,由于微博内容简短,包含不同的语言、表情符号和干扰信息等,处理识别特定的微博和匹配相关微博具有挑战性。并且在社交媒体的影响力下,微博等提供微博服务的网站也越来越受欢迎,除充当对外的窗口之外,这些也是沟通和收集信息的重要来源之一,尤其是在紧急或灾难期间显得尤为突出。
面向微博的灾难供需分析研究关键在于供需微博的识别和需求微博和供给微博的匹配,本文以Twitter为例,应用人工智能技术识别灾难发生时与供需相关的微博,并对供需关系进行了匹配。
2 灾难供需微博识别模型
2.1 方法选择
更确切的说,灾难供需微博识别可以被看作是两类分类。如果我们将识别供需微博的任务形式化为分类问题,我们的目标集中在回答以下两个问题:
①哪些基于分类的方法可以有效地应用于识别微博。
②哪些特征应该用于分类器。
对于分类任务D={(x1,y1),(x2,y2),…,(xm,ym)},yi∈{0,1},其中xi是特征向量,yi是特征标签。使用AdaBoost、SVM-L和SVM-NL分类器来分别预测需求信息和供给信息。
对于供需微博识别中的问题①,我们使用SVM-L分类模型。这个模型的原理是利用超平面对数据进行分类,从正样本点到超平面作为排序结果。
对于供需微博识别中的问题②,我们使用AdaBoost,这是一个可以增强弱学习者学习能力的算法。分类器的工作原理是从基学习者的初始训练集开始,根据基学习者的表現对训练样本分布情况进行新的调整。在以往案例中,错误的学习者的训练样本在后续的过程中受到更多的关注,这样训练下一个学习者时就可根据调整后的样本分布来训练,并以正概率大于0.5的概率值作为排序结果。
在供需微博识别存在残缺的问题,使用SVM-NL。分类原则是利用内积函数而不是利用高纬度空间来对正负离的非线性映射进行分离。在测试过程中,分类器为正面情况预测概率,并使用概率值作为排序结果。
2.2 功能设计
基于内容的微博过滤方法,影响微博需求微博或可用性微博因素,是微博的特征。对于基于内容的过滤方法,单词是自然特征。选择1110个灾难相关词作为微博灾难特征词。特征词可以滤除噪声词,提高分类器的分类效率。对于特征提取做出了模型分析。
一般情况下,文本模型维数都比较大,如果不进行一定的降维操作,那么对于下一步的分析无疑是艰难的。所以要进行一定的降维操作,所以文本特征提取也至关重要。目前主要的特征提取方法有:特征词的文档频率法DF、信息增益法IG、互信息法MI、卡方拟合检验法。
文档频率法DF(Document Frequency),DF是最简单的一种特征评估函数,DF不需要依赖类信息,是一种无监督的特征选择,在文本预处理过程中,常被用来删除出现次数过少或者出现次数过多的单词以提高后续处理的效率。
一个特征项的信息增益就是在不考虑任何特征项的文档集的熵和考虑该特征项后的文档集的熵的差值,即公式(1):
其中H(C)表示分类系统的熵,H(C|T)表特征值T被固定时的条件熵。所以信息增益公式如(2)所示:
不同的文本采取不同的特征提取方法得到的特征词汇可能会不一样,所以选取特征提取的方法对后续的研究都有影响。表1显示十八个具有说服力的特征词:
通过分析选定的特征关键词,我们发现medical、doctors、blood、hospital、ambulance等用于医疗信息。relife、electricity、food和medical都是人們生活的保障项目。提取的特征词可以代表灾难中的微博信息。
2.3 灾难供需微博匹配模型
灾难供需微博匹配要求灾难供需微博识别中的需求微博匹配由被灾难供需微博识别所搜索。其中需求微博作为查询设置Q,可用性微博可以用作集合文件D。我们使用统计语言模型来解决灾难供需微博匹配的问题。根据语言的用法,语言模型用于评估什么样的单词序列更为典型,如果文档语言模型给出的查询概率很高,那么根据文档语言模型,这意味着查询词经常在文档中显示。
2.3.1 相关性
相关性计算如图1所示。使用Need-Twitter作为查询集合Q,A作为文档集合D,然后进行相关性计算以获得相关性R(Q,D)。
2.3.2 语言模型
根据需求微博和可用性微博的描述,我们将问题简化如下。将检索问题表示为IR=(Q,D,F,R(qi,di)),其中Q表示为需求微博,D表示为可用性微博,F为满足相关排序规则的模型,R(qi,di)用于查询qi和文件di的相关性。其中qi和di预测了灾难供需微博识别中的需求微博和可用性微博。开放源代码检索工具indri用于灾难供需微博匹配,在系统中我们使用基于Dirichlet的语言模型平滑和选择KL(Kullback-Leibler Divergence)距离作为排序模型。基于Dirichlet平滑的语言模型和KL距离排序模型定义公式如下:
其中Q是查询模型,D是文档模型,将计算相应Q和D的估计值,w是词汇表中所有单词的集合。
其中Pml(w)是语言模型,而μ是平滑参数。
3 匹配模型
匹配流程图见图2所示。该功能是由网页获取用户点击需求微博,系统根据所选的需求微博,在存储所有灾难供给微博的数据库中查找能够匹配需求微博的供给微博,并选择匹配度大于0.01否则重新匹配下一条供给微博,最终在所有满足匹配度中的微博中选取Top5的供给微博。其效果将是一条需求微博在页面显示时为用户提供5条供参考的供给微博。
参考文献:
[1]Youngjoong Ko,Jinwoo Park,Jungyun Seo. Improving text categorization using the importance of sentences[J]. Information Processing and Management,2004,40(1).
[2]郑健珍.定题爬虫搜索策略研究[D].厦门大学,2007.
[3]吕爱平,卞兆祥,陈可冀.Bridging the Traditional Chinese Medicine Pattern Classification and Biomedical Disease Diagnosis with Systems Biology[J]. Chinese Journal of Integrative Medicine,2012,18(12):883-890.
[4]赛金辰.基于Spark的SVM算法优化及其应用[D].北京邮电大学,2017.
[5]Saber Moazami,Roohollah Noori,Bahman Jabbarian Amiri,Bijan Yeganeh,Sadegh Partani,Salman Safavi. Reliable prediction of carbon monoxide using developed support vector machine[J]. Atmospheric Pollution Research,2016,7(3).
[6]Kyungho Lee,Minkee Choi. Hierarchically micro-/mesoporous Pt/KL for alkane aromatization: Synergistic combination of high catalytic activity and suppressed hydrogenolysis[J]. Journal of Catalysis,2016,340.