基于社交媒体数据的城市内涝主题挖掘综述
2024-11-11宋会萌潘志安
摘" 要:随着全球气候变暖情况的严重,城市内涝现象频发,对人们生活和城市运行产生严重影响。通过社交媒体对数据进行采集和挖掘,解决传统的灾害信息收集效率低、全域覆盖困难等问题,在灾害应急管理中发挥着关键作用。围绕对社交媒体内涝数据的采集、主题挖掘的关键技术方法,梳理国内外相关文献,进行必要的评述分析。最后,对现有研究存在的问题和未来发展趋势进行总结与展望。旨在为城市内涝数据采集、主题挖掘研究提供理论和方法支持,也为城市内涝灾害分析和管理提供参考。
关键词:社交媒体;灾害信息收集;城市内涝;数据采集;主题挖掘
中图分类号:P429" " " 文献标志码:A" " " " " 文章编号:2095-2945(2024)32-0079-04
Abstract: With the serious global warming, urban waterlogging has occurred frequently, which has had a serious impact on people's lives and urban operations. Collecting and mining data through social media solves the problems of low efficiency and difficulty in full coverage of traditional disaster information collection, and plays a key role in disaster emergency management. Focusing on the key technical methods of collecting waterlogging data and mining topics on social media, this paper combs through relevant domestic and foreign literature and conducts necessary reviews and analyses. Finally, the problems existing in existing research and future development trends are summarized and prospected. It aims to provide theoretical and methodological support for urban waterlogging data collection and topic mining research, and also provide reference for urban waterlogging disaster analysis and management.
Keywords: social media; disaster information collection; urban flooding; data collection; topic mining
随着极端天气的增多和城市化进程步伐的加快,城市内涝现象频发,已经严重影响到了城市居民生产生活以及城市经济社会的可持续发展,给人民的生命财产安全构成了巨大的威胁[1]。因此,及时准确地掌握城市内涝信息,对灾害应急管理和防灾减灾至关重要[2]。城市内涝信息获取途径众多,相比传统的灾害信息获取方法,社交媒体数据具有实时性强、基数大、来源广泛、获取成本低和内容综合程度高等优点[3],被越来越多地应用于灾害的监测和灾情信息的获取之中[4-5]。从海量的社交媒体数据中筛选出与内涝相关的信息进行主题挖掘,可以为城市的防汛救灾应急管理提供决策支持,可以为灾情响应和评估提供有力支持[6]。
1" 城市内涝主题挖掘综合架构
数据采集是基于社交媒体城市内涝主题挖掘整个架构中的基础,采集到的原始数据需要先经过预处理。主题挖掘是整个架构中的核心,用于从预处理后的数据中自动识别和提取核心概念或主题,以便后续分析工作的进行。基于社交媒体数据的城市内涝主题挖掘综合结构图如图1所示。
2" 城市内涝数据采集技术
2.1" 网络爬虫
网络爬虫,用于自动化地在互联网上搜集信息和提取数据。通过模拟用户浏览器的行为,遍历网站的不同页面,从中提取、解析出有用的信息,并将其存储以供后续使用[7]。在实际操作中,首先发送HTTP请求以获取目标网页的数据,可以通过编程语言中的网络请求库来实现。接下来解析数据以提取出所需的特定信息,最后将解析出来有用的数据存储起来。爬虫的框架众多,如Selenium、Scrapy[8]、Crawley、Heritrix、StormCrawler等,每种都有其各自的优缺点,可以根据需求选择合适的爬虫程序。
2.2" 基于官方API接口
许多社交媒体平台提供了官方开放的API接口,允许开发者通过这些接口获取用户公开的数据或经过授权的私有数据。与网络爬虫相比,官方API提供了更加直接和结构化的数据访问途径,更加简洁方便和快速高效。例如,通过访问微博官方提供的高级搜索API,地址为'https://s.weibo.com/weibo?q=大暴雨amp;typeall=1amp;suball=1amp;timescope=custom:2021-07-20-18:2021-07-21-18amp;Refer=g',可根据检索条件设置初始的接口,获取到更为精确的与城市内涝相关的微博数据。
2.3" 基于第三方平台
第三方平台通常提供了用户友好的界面和丰富的功能,显著提升了数据获取的灵活性和便捷性。例如,Hootsuite是一个流行的社交媒体管理平台,支持多平台的数据管理和分析;Sprout Social提供了社交媒体的管理、监控、分析等功能,支持多个平台的数据采集。在选择适合的第三方平台时,用户必须综合考虑多个关键因素,包括平台的稳定性和可靠性,数据采集的全面性,平台的易用性,以及成本因素。
上述3种采集技术的优缺点见表1。
3" 城市内涝主题挖掘技术
3.1" 基于语义分析
基于语义分析的方法在城市内涝主题挖掘中,着重于深入理解社交媒体文本中的语义内容。这种方法通过句法分析、语义词典和本体等技术,能够揭示用户对内涝事件的复杂认知和态度。适用于分析城市内涝数据中用户的情感、态度等潜在信息。通过句法分析,研究者可以识别出用户对事件的不同看法和情感倾向,从而更准确地把握公众对城市内涝问题的反应;此外,词汇链分析通过追踪特定主题或概念在社交媒体上的演变,有助于研究者理解公众关注的焦点是如何随时间变化的。然而在实际应用中可能面临数据量大、处理复杂度高的挑战[9],需要结合其他方法提高主题挖掘的准确率。
3.2" 基于统计特征
基于统计特征的方法主要依赖于对文本数据中词汇的统计分析来识别主题和概念,通过分析社交媒体文本中关键词出现的频率来识别和评估词汇的重要性。适用于快速发现城市内涝数据中的热点话题或趋势,对城市内涝关键词进行提取,以及热点事件进行监控。通过词频统计进行自动标引,研究者可以识别文本中的高频词汇。TF-IDF是一种目前广泛使用的词频加权技术,用于提取关键词或主题词,快速识别出讨论的热点和趋势[10];此外,共词分析则进一步揭示了不同词汇之间的关联性,帮助研究者发现社交媒体用户关注的内涝相关主题和议题;词袋模型也是一种简单而强大的文本表示方法,通过统计文档中词汇的出现次数来捕捉文本信息[11]。
3.3" 基于图挖掘
图挖掘专注于从图结构数据中发现有价值的模式和信息,图由节点和边构成,节点表示实体或对象,边则表示节点之间的关系或连接,能清晰反映文本中的对象和关系。适用于揭示社交媒体中用户之间的互动模式或城市内涝主题关联,对社交媒体舆情传播进行分析。通过构建文本数据的图结构来识别城市内涝关键主题和概念,郭红梅等[12]基于图挖掘的文本主题识别方法写出研究综述。TextRank模型是图挖掘的经典算法,通过评估文本中各个节点的重要性,识别出社交媒体讨论中最为核心和关键的主题。
3.4" 基于机器学习
机器学习技术在城市内涝主题挖掘中的应用,主要体现在通过训练模型自动识别文本数据中的关键主题。适用于大规模城市内涝数据的分类、主题聚类以及预测等任务。基于主题概率模型的机器学习主题挖掘算法,最为常见的有LDA,被广泛应用于发现和分析隐含的主题结构。通过概率分布的方式,将文档中的词汇映射到潜在的主题空间,从而自动识别出一系列主题,并将文档分配到相应的主题中[13];此外,BTM模型特别适用于短文本数据,能够更有效地处理社交媒体短文本中的词汇稀疏性问题[14];支持向量机算法可以用于提取社交媒体文本中的关键词并分类,进一步对内涝信息聚合,可实现对新获取的数据自动进行主题分类[15]。虽然基于机器学习的主题挖掘模型和算法有很多,但可能面临过拟合、模型泛化能力不足等问题,需要调整模型参数、选择合适的特征和算法来优化模型性能,进一步提高准确性和效率。
3.5" 基于深度学习
结合深度学习的强大表示能力和传统主题模型的语义分析优势,可以从社交媒体文本中高精度地识别出与城市内涝相关的信息。适用于复杂的文本处理任务,如自动生成文本摘要、语义匹配和理解用户情感等。利用神经网络的主题挖掘模型,使用神经网络来捕捉文档中词汇的语义信息,并用于主题建模[16];此外,基于双向LSTM语义强化的概率主题模型,利用双向长短时记忆网络构建文档的语义向量,分别从文档-主题、词汇-词汇2个角度进行GPU强化[17]。实际应用中需要考虑计算资源消耗大、数据需求量大、可解释性差等多个方面,研究者需要在模型设计、训练策略、数据处理和评估方法等方面进行创新和改进。
上述5种技术的优缺点见表2。
4" 结论
现有对社交媒体数据的城市内涝主题挖掘取得了一定的进展,但仍存在一些问题和挑战。首先,社交媒体数据的噪声和非结构化特性使得数据预处理和清洗成为一项重要而复杂的任务。其次,不同社交媒体平台的数据特性和访问限制增加了数据采集的难度。此外,仍需进一步提高准确性和效率,尤其是在处理大规模数据集时。未来的发展趋势可能包括:①开发更先进的自然语言处理算法,以更好地理解和挖掘分析社交媒体数据;②利用深度学习和神经网络技术来提高城市内涝主题挖掘的准确性和自动化程度;③结合地理信息系统和物联网技术,实现更精细化的时空分布规律分析;④加强跨学科合作,整合气象、城市规划、环境科学等领域的知识,以全面提升城市内涝灾害管理的科学性和有效性。随着技术的进步和社会的发展,城市内涝主题挖掘的研究将更加深入和广泛,为城市管理和灾害响应提供更有力的支持。
参考文献:
[1] 李雅娴.基于社交媒体数据的极端天气对城市公众影响测度研究[D].西安:长安大学,2023.
[2] 李智星.基于机器学习的城市内涝快速模拟预报方法研究[D].西安:西安理工大学,2024.
[3] 邬柯杰,吴吉东,叶梦琪.社交媒体数据在自然灾害应急管理中的应用研究综述[J].地理科学进展,2020,39(8):1412-1422.
[4] 肖杨.基于微博文本的暴雨内涝灾情判别与舆情研究[D].南京:南京信息工程大学,2020.
[5] 胡文翰.城市内涝脆弱性评估及时空分异研究[D].北京:北京建筑大学,2024.
[6] 梁春阳.基于社交媒体的台风灾情信息抽取方法研究[D].福州:福建师范大学,2020.
[7] 薄涛.基于社交媒体的地震灾情数据挖掘与烈度快速评估应用[D].哈尔滨:中国地震局工程力学研究所,2020.
[8] 宋雅蓉,王译啡.基于LDA模型和情感分析的网上教学舆情分析研究[J].网络空间安全,2023,14(1):112-118.
[9] 周心悦,许项东.交通相关学科研究生学位论文主题挖掘与演化分析[J].交通与运输,2023,39(6):65-71.
[10] AWAJAN A. Keyword extraction from Arabic documents using term equivalence classes[J].ACM Transactions on Asian and Low-Resource Language Information Processing,2015,14(2):1-18.
[11] 阎亚亚.词袋模型和TF-IDF在文本分类中的比较研究[J].电脑知识与技术,2021,17(28):138-140.
[12] 郭红梅,张智雄.基于图挖掘的文本主题识别方法研究综述[J].中国图书馆学报,2015,41(6):97-108.
[13] 黄晶,李梦晗,康晋乐,等.基于社交媒体的暴雨灾情信息实时挖掘与分析——以2019年“4·11深圳暴雨”为例[J].水利经济,2021,39(2):86-94,98.
[14] 何旭涛.基于BTM主题模型的微博舆情动态画像研究[D].秦皇岛:燕山大学,2023.
[15] 周锐.基于社交媒体的城市内涝灾害信息实时挖掘与分析[D].武汉:华中科技大学,2021.
[16] 杨利君.微博用户长短期兴趣挖掘及推荐算法研究[D].邯郸:河北工程大学,2023.
[17] 彭敏,杨绍雄,朱佳晖.基于双向LSTM语义强化的主题建模[J].中文信息学报,2018,32(4):40-49.