APP下载

基于多源文本挖掘的城市交通舆情分析
——以苏州为例

2018-07-26何梦娇

交通信息与安全 2018年3期
关键词:舆情交通微信

何梦娇 吴 戈▲ 梁 华 唐 倩

(1.苏州大学轨道交通学院 江苏 苏州 215000;2.姑苏交警大队 江苏 苏州 215000;3.什邡市交通运输局 四川 德阳 618400)

0 引 言

随着大数据、物联网、人工智能等新技术的迅速发展,“互联网+”成为当今经济发展新引擎。国家“十三五”交通运输发展规划中提出要基于互联网及社会其他渠道获取信息,深化信息资源利用,提高交通运输决策的公众参与度。2012年苏州市政府主办推动网络论坛“寒山闻钟”,开通“政风热线”,为市民发表诉求和建言提供平台。苏州交通广播推出听众微信路况播报,收集和发布早、晚高峰实时路况。这三类数据构成的苏州交通舆情包含了市民对城市交通问题的咨询、意见、建议以及态度等诸多信息,可为营造更好的交通环境、提高市民交通满意度提供有价值的参考。

近年来,文本挖掘成为数据挖掘的重要领域,主要应用在用户感知、情绪分析、热点话题识别信息提取[1-2]等诸多方面。然而基于文本挖掘技术的分析方法尚未系统地应用到对不同来源的交通舆情研究中。本文基于苏州市政府投诉平台和交通广播所获得的文本数据,利用文本挖掘技术研究交通舆情中的深层价值。本研究可对交通舆情进行快速跟踪分析,从中提取市民真实出行需求及其变化趋势,对管理部门宏观审视城市交通问题、及时发现和制定有效解决方案具有重要意义。

1 研究方法简介

笔者用文本挖掘技术对多源交通舆情进行全面深入的分析,其流程见图1。

图1 交通舆情文本挖掘的流程Fig.1 Process of traffic public opinion mining

对所收集的交通舆情数据,首先进行预处理:第一步,利用搜狗词库及自定义词库用R语言编写程序进行自动分词,其中自定义词库添加交通事件、交通基础设施等专业词汇以及苏州市道路、地物名称等信息,以提高分词准确性;第二步,同义词归并,将几个同义词归结为某一词汇,比如信号灯、交通信号等均作为红绿灯处理;第三步,词频统计,按照同1个词汇在1条文本记录中多次出现时只计1次的原则,计算各词汇在全部数据中出现的频次;第四步,利用向量空间模型[3]建立文本向量,将文本转换为计算机可识别的格式;第五步,用文档频率法[4]筛选关键词,提取文本特征集。

数据预处理后,笔者分别采用支持向量机(SVM)模型[5]对交通舆情的主题内容进行快速自动分类;使用对应分析[6]方法探究不同方式获取的关键词之间的差异和联系,总结不同文本源的数据特点;利用关联规则Apriori算法针对具体问题深入挖掘,抽取特殊的交通事件或道路,对关键词进行关联分析,明确不同交通现象产生的原因;关键词共现网络则用来描述文本当中词与词之间的关系,定量地确定各关键词在交通舆情中的地位,从而清晰地展现交通舆情热点及其演变。

2 数据及词频分析

本文收集了3种不同来源的舆情数据。其中,苏州市姑苏区2016年交通环境的投诉建议分别来自“寒山闻钟”论坛(695条,以下简称论坛数据)和政风热线电话(1 179条,简称电话数据)。2016年2月23日—4月15日期间听众微信播报的早晚高峰路况信息来自苏州交通广播(3 507条,以下简称微信数据)。

2.1 分词结果

姑苏区投诉建议数据的分词示例见表1,对语义没有影响的助词已被删除。

表1 投诉建议的分词结果示例Tab.1 Examples of word segmentation of complaints

微信数据是听众用语音描述的实时交通状况,剔除虚词、口头语以及重复内容后,一般较为简短,见表2。

2.2 词频分析

对分词后的文本,统计各词语出现的频率。

表2 微信语音路况的分词示例Tab.2 Examples of word segmentation of real-time traffic information

表3按照词义,分基础设施、交通组织、交通秩序、道路、地物等,列出了论坛数据和电话数据中的高频词及其出现的频率,其中空白数据表示其所占比例低于0.01。从论坛数据高频词看出,53%的交通基础设施中出现了红绿灯(及其同义词),远多于其他词汇,隔离栏、停车位以及标志出现的次数相当。从交通组织看,左转、右转出现的次数相近,且远多于其他词汇。左右转交通与交通信号密切相关,因此解决好交通信号的设置、配时等问题,有可能大幅度减少市民的投诉。另一方面,改造和施工出现的次数也较多,说明施工和改造等交通建设项目对投诉也有较大影响。从交通秩序来看,描述交通状况表象的拥堵一词出现的次数最多,其次是违停现象,需要加强监管。

因为交通问题普遍存在于城市各地区,所以投诉中道路、地物词汇分布较为广泛,出现的最高频次却明显少于其他词汇。投诉最多的道路有人民路、劳动路、西环路等,但这些道路并非与地物中的金阊新城、平江新城等重叠,说明投诉中出现的道路和地物均反映了对相关区域内交通状况的不满。

通过比较发现, “南山金城”等地物及“禁鸣” “减速带” “逆行”词语在电话中作为高频词,在论坛中却较少出现,说明这2种渠道的舆情内容有一定差异。

表3 投诉建议中主要高频词出现的频率Tab.3 Frequency of keywords in complaints

微信数据中频繁出现描述实时路况的拥堵、追尾以及说明通行方向的西向东、南向北等词汇。用文本挖掘中常用的词云图来展示微信数据中出现的道路的频次,结果见图2。

图2 道路的词云图Fig.2 Word cloud of road names

由图2可见,微信路况数据中提到最多的道路为娄江快速路、尹山大桥、南环高架等城市快速路及其相关路段,姑苏区的人民路、劳动路等出现较少。说明微信路况数据主要反映以快速路为代表的全市道路交通状况。

3 挖掘结果分析

3.1 SVM分类

由于论坛与电话投诉主题范围较广,为便于管理部门更有效地从中发现市民对城市交通问题的诉求及解决方案,有必要根据投诉的主题内容对其快速自动分类。图3是本文创建的分类模型的具体类别及主要特征词例。

图3 主题类别及其特征词汇Fig.3 Topic classifications and feature words

以随机抽取的500条论坛数据作为训练集,剩余的195条作为测试集。经过比较发现,采用软边缘参数为1的线性核函数时,SVM模型的分类结果准确率最高。表4对比了测试集的人工分类与SVM模型分类的结果,正确率达到92.3%,其中交通基础设施、道路交通状况与秩序的分类正确率为100%。分类误差的主要原因是投诉文本中有错别字或一条投诉中包含多个主题。

表4 SVM分类结果Tab.4 Results of SVM classification

用经过训练的自动分类模型对电话数据进行分类,与论坛数据分类结果相对比(见图4)后发现,交通基础设施问题在电话数据中占63.2%,在论坛数据中占40%,说明市民对加强和改善交通基础设施建设的诉求非常强烈,也反映出姑苏区的交通基础设施建设仍存在很大问题。

图4 投诉分类统计图Fig.4 Statistical chart of classificationof complaints

3.2 对应分析

对3种不同来源的舆情数据高频词进行对应分析,可以明确各数据源关键词的特点,结果见图5。图中关键词的因子载荷值越接近,其对应关系越紧密。靠近坐标轴的关键词没有显著特征,即各种数据中都会出现该关键词,如车道、红绿灯、事故、交叉口等。由图5可见,电话数据中频繁出现人民路、公交车、停车、标志、隔离栏等词语,而行人、非机动车道、机动车、左转、右转、掉头等与论坛数据联系密切,说明电话数据多涉及公共交通以及与安全、停车有关的交通设施,而论坛数据更多反映慢行交通与机动车交通的冲突、交叉口交通组织等问题。与微信路况联系最紧密的有拥堵、相撞、追尾、匝道、快速路以及表示方向的词,与电话及论坛数据有明显差异。另一方面,电话数据中禁止、取消、最好等词频繁出现,暗示其中可能比其他数据更多地包含交通问题解决方案建议。

图5 不同文本源的关键词对应分析Fig.5 Correspondence analysis of keywords in different text sources

3.3 关联规则分析

由表3可知,2016年姑苏区被关注最多的是人民路。这条市区南北干道从2012年开始地铁施工,主要交叉口都采取了围挡、禁左等措施,通行条件较差。地铁施工末期的2016年2月下旬,对人民路开始进行改造,直到2016年12月中旬全部施工结束后才完全拆除了围挡,恢复正常通行。

表5为人民路的关联规则结果,支持度表示规则在所有文档中出现的频率,置信度表示在规则中前继项集出现的前提下后继项集出现的频率,提升度表示在规则中包含前继项集的条件下包含后继项集的概率与不含前继项集的条件下却含后继项集的概率之比。模型最小支持度阈值设为0.003,最小置信度阈值设为0.1,并筛选出提升度大于3的规则,关联规则按置信度降序排列。支持度和置信度值相同表明规则的后继项集出现的频率相同。可以发现:与人民路同时出现频率最高的词汇有施工、改造、掉头、禁止、标志等,这说明道路施工期间的交通组织措施是使人民路成为舆情热点的主要原因。{人民路=>平川路}这条规则的提升度明显大于其他规则,说明平川路在投诉中单独出现的概率较小,更多是在投诉人民路时提到平川路。

表5 人民路的关联规则Tab.5 Association rules of Renmin Road

同样,对出现频率较高的其他道路、地物进行关联规则分析发现,劳动路和西环路的主要问题是交叉口交通组织和道路设计;江宇路和苏站路周边住宅小区较多,存在慢行设施不完善、交通秩序治理欠缺等问题。市公安局一词在论坛数据中频繁出现,主要和交通服务与管理的词汇关联,而不是作为地点的代名词出现;电话数据中“南山金城”与“禁鸣”关联密切,也反映出对于噪音污染等紧迫性较高的问题,市民可能更倾向用电话进行投诉。

3.4 共现网络分析

图6为2016年各月份与人民路相关的投诉舆情数量的变化。在改造初期投诉数量略有增加,改造完成后投诉数量急剧上升。下面通过关键词共现网络具体分析产生该现象的原因。

图6 不同月份人民路的投诉变化Fig.6 Monthly variation of complaints about Renmin Road

将2016年1-4月作为改造前期,5-11月作为改造期间,12月作为改造后期。对人民路改造各阶段投诉内容的关键词进行共现网络分析,结果见图7,由于这些关键词均与“人民路”共现,因此图中省略人民路。图中节点大小表示度中心性,连线代表关键词共现次数。

图7 人民路改造不同阶段的投诉关键词共现网络图Fig.7 Co-occurrence network of keywords of complaints about Renmin Road in different reconstruction phase

由图7可见,随着人民路改造阶段的不同,市民投诉的内容也发生相应的变化。例如,在改造初期,“临时” “通行”共现次数较为明显,说明在改造初期,临时通行等交通措施会引发投诉。“禁止”一词在初期主要承接“调头” “直行”等词汇,在中期还承接“标志” “违规”等,说明施工期间的违规现象也引发较多投诉。另外,在改造完成后,人们对隔离栏、车道以及公交车投诉突然增多,并且与行人、不方便等词共现明显。这是因为,人民路由改造前的双向4车道改为双向5车道(包括2条公交专用道),道路中央增设了隔离栏,减少了路段中机动车调头和左转以及行人随意穿越道路的可能性。由于不适应新的通行方案,引发了一些争议,出现了类似“人民路修好后比以前更不合理、更加拥堵”的抱怨。

图8以“拥堵”为中心描绘了早晚高峰关键词共现网络图。可见,“拥堵”和大多数关键词都存在共现关系,在早高峰与“西向东”共现次数最多,在晚高峰除了与“东向西”方向,与其他方向的共现次数均相对较多,这表明早高峰路况的整体拥堵方向是西向东,而晚高峰除了东向西,其他3个方向的拥堵情况也较为严重。 一些高架、快速路与出口之间连线较粗,如南环高架—滨河路—出口,表明在高架的出口处拥堵严重,需要加强快速路出口的交通组织和管理力度。从早高峰图中看出, “某车辆” “刹车灯” “不亮了”联系紧密,说明某些车辆自身故障也会引发听众播报。

图8 微信实时路况的关键词共现网络图Fig.8 Co-occurrence network of keywords in real-time traffic information

4 结 论

在交通系统非结构化数据越来越多的背景下,结合多种文本挖掘方法研究其价值有助于交管部门深入分析交通舆情,全面掌握城市交通问题,及时发现市民诉求的变化趋势,以制定有效的交通治理方案。本文以2016年苏州市姑苏区相关的网络论坛、热线电话以及微信播报的交通舆情为对象进行了实证分析。研究发现,不同舆情渠道反映的城市交通问题有明显的差异,需要对交通舆情进行系统挖掘和比较分析,才能更深入地了解市民诉求的多样性;苏州市姑苏区在交通基础设施方面市民反应较强烈,解决好道路交叉口信号设置、配时以及交通组织等问题,将会大幅度减少投诉。热线电话多涉及公共交通以及与安全、停车有关的交通设施,而网络论坛更多反映慢行交通与机动车交通的冲突、交叉口交通组织等问题。另一方面,市民能在一定程度上忍受地铁施工和道路改造阶段的不便,但对于新的交通管理方案的理解和支持还需要有关部门更广泛的解释说明以及实践验证。此外,苏州市在早高峰呈现西向东拥堵严重的规律,需要针对拥堵规律制定适合的交通组织方案,且城市快速路在出口处拥堵最严重,应进一步加强城市快速路出口的交通组织和管理力度。

目前无法获得投诉用户及听众的社会经济属性,今后如果能结合个人属性分析不同用户投诉的差异,对丰富交通舆情的分析内容和制定有针对性的交通改进措施具有重要的意义。

猜你喜欢

舆情交通微信
繁忙的交通
小小交通劝导员
微信
消费舆情
舆情
舆情
舆情
微信
微信
阅读理解三则