APP下载

基于文本挖掘的南京交通舆情研究

2022-06-12甄云竹闫琦若李英帅

物流科技 2022年6期
关键词:南京市舆情词语

郭 宇,甄云竹,闫琦若,李 晨,李英帅

(南京工业大学 交通运输工程学院,江苏 南京 211816)

0 引 言

新时代我国互联网建设发展迅捷,信息技术一方面推动社会进步发展,造福人类社会,另一方面也会产生网络舆情,给社会带来不安定因素。网络舆情是一种群体性意见,具有实时性及一定的倾向性和影响力。随着网民规模逐年扩大,互联网覆盖率的提高,来源广泛、发帖门槛低的网络舆情在与社会转型期敏感问题结合时可能产生负面内容。对2014年我国网络舆情进行研究时,谢耕耘等发现互联网领域多年来存在顶层设计不足、多头管理、标准模糊等问题。来源广泛、发帖门槛低的网络舆情对社会公共治理、舆论引导等工作影响逐步加强,应重点关注并加以引导。

国外网络舆情研究始于1936年,发展时间较长,Pawel Sobkowicz等提出将来自多个数据源的在线意见与传统调查进行校准,开发了社会网络舆情系统模型,加强了公共政策、营销、金融等领域的决策。Rade开发了Simmons系统,并应用于自然灾害领域。

国内舆情研究起步较为迟缓,目前主要研究方面包括文本检索、信息提取、情感分析、语义分类等。肖丽妍等从舆情影响力的广度、强度、速度三个层面建立体系,并给出各个指标具体计算方法,衡量评价基于微博的网络舆情社会影响力,为企业管理者提供决策层面的支持;刘毅利用MATLAB软件,基于三角模糊数的模糊菲尔德法和模糊层次分析法,得到了关于具体某一热点话题的网络舆情预警指标体系;滕婕等运用Agent关系网络,提出信任识别模型,识别恶意信息主体。

交通舆情主要以文本形式存在于新浪微博、相关论坛、微信、文章的回复、跟帖中,可利用交通舆情提炼交通信息,对交通工作加以完善。张恒才提出一种从微博文本中快速提炼获得交通信息的技术,获取各条路径的运行状况描述,得到交通流运行水平;崔健开发了基于微博的交通突发事件提取系统,能够迅速采集交通相关信息,评估参与人的情感状态;赵阳以故障文本信息为依据,运用贝叶斯网络作为故障分类方法,提出了高铁信号系统车载设备的故障诊断方法;潘美瑜利用网络爬虫技术实时获取与城市交通相关的文本数据,提取交通事件特征并分析成因,研究数据背后的情感特点;郑治豪等以新浪微博为主要数据来源,利用条件随机场算法等,完成了微博数据的提取、识别和分类,开发了交通感知分析与可视化系统;熊佳茜使用Python为主要开发语言,以条件随机场算法与正则表达式相结合,达到了83%的提取准确率,为获取交通大数据提供一种可行有效途径。

当前研究大多针对交通大数据获取、分析后对社会带来的影响及应对措施,但结合区域发展特点,针对某一特定地区的交通舆情分析研究较少。何梦娇获取苏州论坛“寒山闻钟”、微信语音、电话投诉三种方式的投诉舆情,分析姑苏区和高新区的交通现状及早晚高峰拥堵规律,了解市民关心的热点话题,对本文具有较高借鉴意义。

综上,本文从南京市交通舆情角度出发。一方面了解2019年南京市交通秩序、交通事故舆情现状,根据所得数据分析出相关事件发生地点及原因,另一方面按照时间划分,统计不同季度南京市微博舆情焦点,贯彻落实“以人为本”交通理念。研究结果可在宏观层面了解市民关注焦点、掌握南京市道路交通发展变化,改善现有交通现状、制定群众认可度高的交通政策。

1 研究过程

本文采用文本挖掘技术进行交通舆情分析,利用爬虫技术获取微博交通舆情数据,关键词分别设置为:交通秩序、交通事故、标志标线。其中,交通秩序下分“堵车”、“绕行”、“禁左”、“修路”、“改建”;交通事故下分“追尾”、“刮擦”、“撞车”、“侧翻”、“打滑”;标志标线下分“标志”、“标线”。得到用户的微博原文、发布时间、用户ID、定位地点、转赞评数据等信息。

而后对获得的文本进行数据处理,判断出有效微博与无效微博。有效微博即含关键词,且与交通有关,内容属实的微博,无效微博为含关键词,但与交通无关的微博。对获取数据进行分词,去除文本中与交通无关的语气词等,进行词频分析,了解市民关注度最高的话题。最后计算词语间关联度,获得两两词语的共现矩阵,完成交通事件与发生地点之间的匹配。数据处理流程如图1所示。

图1 数据处理流程图

数据处理结束后,进行多层次评估及可视化展示。按交通事件与时间分类,进行舆情分析、季度舆情分析与微观舆情分析,获取2019年南京市民关注度较高话题与重点区域。最后结合地理位置、地域社会经济发展状况与舆情发布时间,分析舆情产生原因并提出对策。

2 数据处理

经网络爬虫技术获得的数据包含大量干扰内容,须对海量内容进行筛查和处理。先对获得的微博数据进行分类,得到对本研究有用的文本信息,再对筛选出的内容进行分词、共现分析等操作。

2.1 微博分类。本研究对于海量数据筛查和处理采用了半技术半人工的方法,即数据的获取过程借助专业软件帮助,数据预处理采用了人工筛查。面对大量数据,在筛选过程中应注意以下方面:(1)合理保留有用数据。初始数据包含信息量巨大,对本研究无效的内容需予以删除;(2)提前设定有效微博定义,并严格遵循。了解南京市内街道名称,若描述的时间地点超出南京范围需予以剔除;(3)对于同样信息出现多次的情况,由于客观事件的出现频率并不代表民众舆论,在考虑样本精确性的前提下,应只保留一条。

经筛查后,对于本研究有用的微博数据共1 170条。其中标志标线类中,含大量高速公路的施工信息,对于交通舆情监测意义较小。去除此类信息后,标志标线类数据样本量仅有27条,代表性差,后续研究中不予考虑。

2.2 分词与词频统计。文本分词需将每个用户发布的内容看作独立的信息,把每条舆情处理为多个词汇的组合,本文分词借助GooSeeker分词打标技术,词频代表舆情信息中单个词语出现的次数,词频越高代表在所有用户的发布内容中,该词的关注度越高。由于单条舆情信息包含的无关内容较多,分词结束后删除与交通无关和词频低于5的词语。

2.3 关联度计算。社会网络图在文本挖掘分析中可以显示出词汇间的关联度,分析词汇是否处于核心位置,其中共词匹配用于计算两两词语在原文中的共现次数。将事件发生地点与事件类型相匹配后,可定位到2019年南京市民所关注的交通现象。

共词匹配完成后可生成匹配矩阵表,在表格中两个词语的共现次数由水平、竖直相交的单元格中的数字表示,值为正数就是有共现关系,值为零就是无共现关系;词语的关联度可以通过计算共现值为正数的单元格数量来表示,如表1所示。

表1 共现矩阵表

共词匹配也可生成社会关系网络图,其默认展示共词矩阵表里的所有词语关系。在系统中输入要展现的连线个数,根据上述统计出的词语之间的共现度,按由大到小的顺序进行排列,位于核心地位的词语会率先获得连线,核心词语与其余词语之间的关联度可以直观表现出来。

在社会网络关系图里,用圆点大小代表词语之间的共现度大小,即与该词有关系的词语个数。网络图使用的是无向箭头,此处的共现度也能表示词语的重要性,即是否处于核心地位。因此词语的共现度越大,圆点就越大,词语也越重要,如图2所示。

图2 交通秩序关系图

从图2中可以明显看出核心词语为“堵车”,由核心词所辐射出的关联词语包括地点名词、交通工具等,其中“玄武湖”、“秦淮(区)”、“南京南站”等词均与核心词关联密切,表明这些地区在2019年处于南京市内的秩序舆情重点地区,而处于网络关系外围的“六合”、“浦口”、“安德门”等地的舆情反馈较少。

3 舆情分析

基于数据的处理整合,对2019年南京市微博交通舆情进行三方面分析:(1)南京市交通秩序与交通事故的评价;(2)按时间将全年划分为四季度,评价每一季度舆情,挖掘出不同时间段的突出问题、重点地区并进行比较;(3)对季度舆情中突出地区进行微观层次分析,进一步了解舆情背后的发生原因。

3.1 类别分析

3.1.1 交通秩序舆情分析。从交通秩序词云图(如图3所示)中可以明显看出,南京市在交通秩序方面的突出问题为拥堵。其646次的出现频率显著高于其余关键词,绕行、修路、施工等词仍较显眼。在出现的地点名词中,扬子江、秦淮河、长江大桥和长江二桥等地所受到的舆论关注较高。

图3 交通秩序词云图

在对应的交通秩序匹配矩阵表中,共出现15处地点名词,8处出现拥堵,4处出现绕行,各有1处进行修路和施工。出现频率较高的地物名词所对应的交通事件以拥堵、绕行为主。与长江大桥对应的“拥堵”词条共有14条信息,长江二桥的“拥堵”共有19条信息,扬子江(隧道)的“绕行”共有9条信息,处于较高的频率。说明市区内多地的拥堵现象较为严重,道路的改建修缮造成了市民的出行不便。

大桥、二桥均位于南京市东北部地区,扬子江(隧道)位于西北部地区,北部及中部区域包括鼓楼区等南京中心市区开发较早的一批地区,以及以浦口区、六合区、栖霞区为主的发展迅速的江北新区,土地利用更加综合、多元化,开发密度高,产生了大量集中分布的交通需求,由其衍生出的拥堵现象也因此较为明显。在此种背景下,应大力发展运载能力强的公共交通与之相适应,集聚带来地价上升,相关部门也应当适当上调停车、通行费用,对私家车的运行进行限制,缓解交通压力。

3.1.2 交通事故舆情分析。由于交通事故所含样本数较少,其形成的词云图所含信息也较少,其中相撞、侧翻等事故名词出现频率显著高于其他名词,发生事故的交通工具以货车为主,说明南京市交通事故大多是由货车产生,地点名词中的二桥、三桥、应天(大街)出现频率相似。

在对应的交通秩序匹配矩阵表中,货车一词共出现66次,匹配矩阵表中与货车具有共现关系词中联系度较大的词分别为“相撞”与“侧翻”,前者共现16次,后者共现34次,并且“货车”与“江北”共现14次,与三桥共现8次。三桥用于连接浦口区绿水湾南端与雨花台区大胜关,雨花台区在地理位置上紧邻江北新区,由此可见,2019年江北新区附近由货车所造成的交通事故不容小觑,应得到交通运输部门高度重视。

交通秩序匹配矩阵表中地点名词共出现8处,按匹配矩阵中共现度观察,5处发生相撞事件,3处发生侧翻,1处发生肇事逃逸。其中雨花台区较为严重,共统计到10条相撞信息与8条肇事逃逸信息,江北新区次之,统计到14条侧翻信息,其中浦口区内文德西路统计有6条侧翻信息。观察上述交通事故发生区域的地理位置可知,大多数事件集中在南京市内的中部,以江北新区和雨花台区最为严重。

南京中上部与中西部相连接关键在于江北新区,其同样作为辐射带动长江中上游地区发展的重要节点,拥有便捷的公路、水路、铁路及航空枢纽,吸引带动的大批交通量是该地交通事故频发的重要原因。长江大桥、二桥、三桥、四桥均连接或位于该区域内,在跨江大桥上行驶易受天气和桥面影响,车辆应严格限速、遵守交通法规。雨花台区是南京市主城八区之一,以软件和信息服务为主导的中国软件名城示范区,且依托南京南站发展枢纽型经济,推动南站与全市周边区域的发展融合,同样具有较大流量,在制定区域发展规划中,应当着重考虑该区域内交通安全问题。

3.2 季度舆情分析。季度舆情用于分析交通舆情的事件类型与时间的关系。以时间为自变量将不同类型交通事件进行整合,寻求随时间推移,市民关注热点与南京交通问题的变化;季度舆情也可用于寻求不同季度间交通舆情相互关系。通过分析比较季度间存在的异同,为制定微观交通战略、城市交通规划等提供参考。

结合舆情关注度较高的地区,制成如表2所示的地点事件对应表(表格标黄地区为江北新区)。从表中信息可以看出,交通事件“拥堵”与“侧翻”在南京市处于舆论焦点,而多数事件的发生地点集聚在中北部地区,其中江北新区和鼓楼区出现频率较高,长江二桥位于江北新区内,它的建成使得南京“城内成网,城外成环”的交通大格局基本形成,拉动了南京东北部地区经济发展,加强省会与苏北地区之间的联系。由于二桥作为宁洛高速的重要组成部分,其所吸引交通量至少涵盖两个省份,在促进沿岸经济快速发展的同时也隐含交通事故发生的可能,一方面桥面行车应严格遵守法律规定,另一方面雨雪天气造成的路面湿滑也应当引起足够重视。尤其在春运等特殊时段,进出城交通量大幅增长时期要做好预告和防范工作,提醒驾驶员绕行,减少造成的行程时间损失和避免交通事故的发生。

表2 地点事件对应表

江北新区作为南京都市圈、宁镇扬同城化的核心区域之一,占到全市面积的37%,承接多数市民的日常工作出行需要,处于高密度开发状态,人口密集,交通发生量集中,交通流的自我调节能力与其他地区相比较弱,因此外在力量对交通流运行的影响较为明显,这也是新区内频繁发生拥堵,以及由于施工带来的绕行现象的原因。

3.3 微观舆情分析。以表2为依据,观测到一季度长江二桥频发绕行现象,四季度长江二桥频发拥堵现象以及玄武湖频发拥堵现象,本节将针对以上交通现象进行微观层次分析,经过查找匹配,共统计到32条有效文本,其中一季度7条,四季度25条,事件发生地点为长江二桥和玄武湖两处。

对于一季度的7条小样本数据,其中5条微博指向宁杭高速(二桥方向),由于绕城车多,建议绕行,2条指向宁洛高速(二桥方向)交通管制,建议绕行。长江二桥处于南京出城交通要塞,连接江苏省与其他省份之间的交通往来,其吸引的多数交通量都是市域出行,为使交通网络处于平衡状态,尽量减少出行者的时间成本,除了在对桥上交通量进行及时疏导管控,通过改建来扩大交通容量,增加可达性外,对其周边地区也应改善使其足够承担二桥的分流,使平均或总的出行成本最小,达到网络的系统平衡。

四季度收集到样本数据相较于一季度具有一定的多样性,长江二桥共统计到12条相关数据,其中9条指向国庆期间,出城拥堵,排队数量较长,引发多数市民的不满,2条叙述二桥至三桥方向的平良大街处发生交通事故追尾,导致较为严重的拥堵现象,1条叙述二桥至三桥方向的玉兰路隧道发生厢式货车与渣土车相撞,产生拥堵。四季度微观数据再次指向二桥所处地理位置的重要性,承担的市内外流量对其提出了更高的运载需求,不仅要保证市民出行的迅速、准时,更应该保证参与人的安全。作为连接市区间的道路,不可避免会吸引到各式交通工具。此时,车种全为小轿车的理想状态下计算出的通行能力等已与实际状况出现较大偏差,应将这部分考虑在城市交通规划发展战略内,对于危险系数较高的交通流要做好防范措施与突发事件应急措施,最大限度保障出行人的安全与时效。

玄武湖在四季度共统计到13条数据,但该13条微博共同指向同一交通事件:国庆玄武湖烟火表演,该事件具有偶然性,但由于事件影响范围广,吸引大量非南京市内出行需求,其造成的市内道路交通负荷也不容小觑。

4 结论

在大数据逐渐渗入各个行业的背景下,利用网络爬虫技术获取微博交通舆情,通过分析高频关键词和共现矩阵,得到南京市2019年舆情热点与问题地区。研究发现:(1)多数用户未形成在微博发布交通观点的意愿。选取2019年整年的时间跨度所统计出的微博数据较少,对研究的进行不利。(2)不同地区市民关注舆情热点不同。本文所采集出的数据中,多数舆情分布在南京市中北部,以江北新区和位于市中心的鼓楼区为主。(3)不同季度舆情关注度与重点地区不同。第一季度存在春运,长江二桥交通压力大,关于“二桥”与“江北新区”相关词条内容较多,第二季度二桥施工,大量交通流被迫绕行,第三、四季度交通逐渐趋于平稳状态,市中心区域仍承担大量交通负荷,因此鼓楼区相关地点名词与“拥堵”出现频率相对较高。(4)本文所使用的交通舆情来源单一。微博舆情数据样本较少,进行舆情分析缺乏代表性,舆情的来源应当多样化,分析比较不同来源的数据是否存在差异。后续可成立专业舆情发布平台,方便注册用户完成实名认证,对于市民的投诉可以做到分类、分时、精准定位,且官方对于市民的舆情信息应做到及时反馈,及时监测,鼓励群众发表个人意愿,促进市内交通平衡和相关政策的落实。

猜你喜欢

南京市舆情词语
南京市集中“检视”三方评议
容易混淆的词语
找词语
南京市鼓楼区黑臭河道的治理
舆情
舆情
舆情
一枚词语一门静
南京市
微博的舆情控制与言论自由