文本大数据的环境治理应用研究
2020-01-17
一、前言
近年来,随着互联网、计算机的飞速发展和技术进步以及人工智能软硬件技术的发展和广泛应用,数据作为记录各种人类活动的一种重要资源而呈现出爆发式增长,而从海量的、非结构化的数据中获取、处理、分析、挖掘其中有价值的信息成为国际国内政界、学界以及企业界关注的焦点问题。国务院在2015年印发的《促进大数据发展行动纲要》,成为首次从国家层面的信息化发展战略角度把数据认定为国家的基础性战略资源,由此,数字化治理方式也成为提升政府治理能力的新途径。
实证经济学需要数据作为基础,数据也是经济指标形成的背后因素,在宏观经济研究、政策制定、经济理论验证、企业应对市场发展、个人做出经济决策等各领域均有重要作用[1]。目前,大数据在经济学和金融学领域中应用较为广泛,拓宽了经济和金融领域的实证研究,既能够为经典研究问题提供新的视角,又可以用于研究最新的热点问题。在经济学研究领域中,文本大数据主要用于度量经济以及相关政策等的不确定性、基于文本的行业动态分类、测度并预测商业周期,以及量化媒体的政治倾向和新闻需求等问题。此外,在金融学研究领域中,文本大数据主要用于度量投资者和媒体的关注度、不同市场参与主体的情绪或语调以及分析投资者出现的意见分歧等指标。
2016年生态环境部(原环境保护部)印发《生态环境大数据建设总体方案》,可以说是正式从政府层面开启了“互联网+生态环境”战略,这个战略对推动政府环境治理创新有着积极的作用。因此,大数据逐步成为环境治理的重要战略资源和政府提升环境治理能力的重要手段,发展数字经济也成为可持续发展的重要方向,同时,对于推动加快生态文明建设进程和生态环境治理能力现代化具有跨时代的重要意义。大数据中蕴含着重要的价值信息,文本大数据作为大数据的重要组成部分,是人类知识的主要载体。[2]非结构化的文本大数据作为一种新的数据源,也是最重要的信息载体之一,往往带有明显的领域特征和独特的语言模式,也常常包含大量的专业词汇,能够为环境治理问题提供有效的信息和独特的分析视角。例如,文本大数据可以用于测度环境政策的不确定性、量化媒体关注度以及舆论导向、不同环境治理主体的情绪对相应问题解决方式的影响、基于新闻的隐含波动因素等。
二、文本大数据的特征和提取重点难点
文本作为语言的视觉形式是人类最重要的交流工具,基于文本的信息隐藏算法具有很高的实用价值,文本的一个明显特点是高度凝练,信息冗余少。[3]大数据中蕴含着重要的价值信息,文本大数据作为大数据的重要组成部分,是人类知识的主要载体。传统的数据收集往往借助于纸质媒介,体量较小,数据获取成本高,获取时间相对滞后;而通过互联网媒介进行文本数据收集和处理,不仅成本大幅降低,数据的可得性大幅增加,数据的体量也呈现几何级数增长的特征。同时,随着网络平台发布信息普及度的提高,除了传统的政府职能部门和相关机构发布信息之外,微博、微信公众号、朋友圈、论坛帖子等新媒体形式也逐渐成为数据来源的重要渠道,文本大数据的发布主体从单一向多样化进行转变,频率变得更高。通过互联网平台积累起来的数据,就存储在网络空间中,文本信息即刻在网络中留下痕迹,通过一定的方法和技术进行提取,信息获取更加及时,数据获取的成本也相对降低。通过利用互联网大数据信息,可以获取接近全体的样本信息,海量的样本量支持下,避免了由于信息不全面导致的错觉以及判断失误,未来还将开拓更为丰富的数据源,如政府工作报告、规划、书籍、档案等。
文本信息挖掘的过程就是从海量的、非结构化的文本数据中获取有价值的信息的过程。数据挖掘中的一个重要研究方向就是文本信息挖掘,目前文本信息挖掘技术在政府、企业以及各行各业都有广泛的应用,通过文本信息挖掘的结果可以对政府、企业等决策的制定提供数据依据。[4]对信息的高度抽象提炼得到的就是文本数据,正是由于海量文本数据信息的存在,获取、处理和分析文本大数据方面仍然存在一些问题,其中最重要的是从海量的文本数据中提取出所需要的核心信息并且保证信息的准确性和有效性,同时考察其对相应问题的解释或预测能力。从技术层面来说,提取文本数据信息需要综合考虑多种因素,这些因素既包含文本数据的来源、所处的语言环境、文本内容的长短、句式结构,也包含需提取信息的特征等,同时也要考虑信息提取的成本和收益。在综合条件允许的情况下,可以采用相对复杂的统计学习和深度学习相结合的信息提取方法来提高信息提取的准确性,优化人机合作成为解决困难的重要方式。使用复杂方法时还需要保证这些方法的透明性和可复制性。最后还要注意的一个问题是,关键技术中的数据结构化转换和文本数据信息提取,这两个重要步骤的执行顺序需要根据具体问题来分析决定,有时可能需要经过多次尝试才能找到最优的决策方案。
三、文本大数据在环境治理方面的应用
现有环境领域主要有两大类文本相关分析的问题,第一大类是对文本显示的公民积极或消极情绪、舆论或者文件语调正负等进行区分的聚类问题,第二大类是度量相关群体情绪、舆论走向不确定性、社会恐慌程度、公民意见分歧程度等和其所对应的回归问题。
(一)文本情绪
因为情绪的变化可能会导致问题处理的结果不同,度量情绪并预测风险是文本大数据在环境治理领域的重要应用方向,典型的例子是邻避效应。通常用“语调”来表示“情绪”,语调的不同表示了情绪的正面和负面、乐观和悲观、积极和消极等。根据情绪的主题可以对文本情绪的研究对象进行不同分类,主要包括媒体语调(媒体新闻)、管理层语调(当事公司管理层讨论与分析、环评报告以及其他公开披露的信息文件)、公民情绪(微信转发评论、微博热搜、网络论坛发帖)等。
度量媒体情绪的媒体新闻报道内容中包含的乐观与悲观情绪。通常来看,媒体负面语气能够解释邻避问题的风险和解决方案,但正面语气却没有解释能力。
管理层的信息披露往往能反映管理层的决策和意图,信息公开不全面、甚至相关信息空白,环评报告独立性存疑,相当于利益集团放大了邻避效应,无助于问题的解决。
文本大数据挖掘技术的出现为度量公民情绪提供了新的数据源。第一个原因是,公民越来越倾向于选择在微博、微信公众号、网络论坛上发布相关的评论或者做出相关搜索,这些文本数据能直接反映出公众对类似邻避事件的看法、对当前状态的解读和预期以及与自身决策相关的信息。第二个原因是,这些数据获得性高且覆盖群体范围广,满足了从不同频率、不同层面研究情绪与邻避风险关系的需求。
(二)媒体关注和倾向
传统的数据指标和环境问题治理之间的关系不稳定,且只能反映部分信息,相对于传统数据来说,文本数据覆盖的领域更加广泛、文本信息获取主体更多、并且新闻内容可能与当前和未来状态有更高相关性。利用文本数据度量公民关注的环境问题采用的主要指标有搜索指数、阅读频率数据和论坛发帖量等。媒体作为重要的信息制造者和传播者,其关注和倾向一方面可以影响普通公民对环境问题治理的关注,另一方面也可以影响舆论信息的传播效率和传播模式。
媒体对环境政策的变动和未来趋势可能产生很重要的影响,比较典型的例子是“PM2.5”、“雾霾”等关键词在一段时间内在媒体中频繁出现,推动了PM2.5的数据公开以及《大气污染防治行动计划》等一系列治理大气污染改善空气质量政策措施的出台与实施。相比而言,传统的自上而下的政策颁布实施时间跨度较长,而主流新闻媒体的新闻文本、网络搜索短时间内同一关键词频繁出现,对新的环境政策的实施具有明显的促进作用。
四、文本大数据未来发展
统筹规划,协同推进文本数据资源整合,建设现代化高技术的数据中心,加强内部共享和动态更新;整合信息平台,逐渐形成统一的互联网文本数据平台,实现信息的有效共享和开放交换;建立文本数据正负面清单,完善健全文本数据开放制度和机制,提高各政府部门和社会机构的文本数据开放热情。
加强文本大数据处理和分析的技术创新、建立一体化的大数据平台和完善的数据管理体系,通过对文本大数据的高效采集、有效整合,加强对政府数据的共享开放和社会数据的挖掘应用,提升环境问题决策能力,提高风险防范水平,进一步深化环境治理的精准性和有效性。
熟练掌握文本大数据需要跨学科领域的人才,专业的研究人员不仅需要对政治、经济、金融、心理学、环境治理等领域有较为深入的认知和研究,同时还应掌握文本挖掘技术等较为丰富的知识基础,了解不同算法的优缺点和典型特征,因此对高素质的跨学科复合型人才的需求量会大量增加,科研机构和高校等可根据自身学科优势对此类跨学科复合型的研究人才进行培养。