互联网时代舆情信息的搜集与分类管理研究
2020-12-08刘羽
刘羽
(郑州升达经贸管理学院,河南 郑州 450000)
一、舆情数据收集是档案信息收集的基础
当前,互联网舆情数据收集系统主要包含三种数据收集技术:人工收集、搜索引擎收集和第三方互联网机构定向收集。人工收集是指通过人工浏览网络平台,通过人工监测获取有价值的数据和信息,经汇总、分析后观察社会舆论走势。人工收集是当前档案管理人员较常用的舆情数据档案信息收集方式之一。
搜索引擎收集按其工作方式主要可分为三种,分别是全文搜索引擎收集、目录索引类搜索引擎收集和元搜索引擎收集。搜索引擎收集的代表是360 搜索、谷歌搜索和百度搜索。以百度搜索为例,据CNNIC 发布的《2018 年中国网民搜索行为研究报告》显示:百度日均搜索量超过50 亿人次,截至2018 年12 月,搜索引擎是中国网民的最基础应用,百度搜索渗透率为97.4%,使用率略逊于即时通信。人工收集和搜索引擎收集是当前比较常用的互联网舆情收集技术,但是这两种收集方式的缺点是可提取关键信息的文本内容都比较短,容易因为数据稀疏导致在做相关运算时出现准确率和推荐召回率不高的状况。克服这一技术难题的方法借助第三方互联网舆情机构定向采集,通过对核心词的外拓实现了准确率和推荐召回率的同步提升。
二、舆情数据预处理是档案信息收集的前提。
第一,对文本进行预处理。文本预处理是对通过舆情采集器收集的未加工的Web 网页进行初步处理,再对经初步处理过的网页文本进行发现话题和数字建模,文本预处理最重要的环节是进行特征选择和中文分词。中文分词对命名实体进行识别,采用 ICTCLAS 系统对所获语料标注词性和进行中文分词,基于词频提炼出web模型的特征向量对中文分词后的文本语料库进行向量化分析。分词技术是针对提交查询的关键词串进行处理,将收集到的网页文本内容转化为结构化向量。
第二,对话题进行检测。对文本经过预处理后的文本语料库形成了扩展空间向量模型VSM 向量集。利用 VSM 各向量间的相似度,对文本进行话题检测和聚类,对文本内容分析的深度决定了聚类技术的效果,聚类技术的功能在于挖掘热点话题。一般情况下,可提取关键信息的文本内容都比较短,容易因为数据稀疏导致在做相关运算时出现准确率和推荐召回率难以权衡的状况。克服这一技术难题的方法就是引入词扩展技术,通过对核心词的外拓实现了准确率和推荐召回率的同步提升。词扩展技术是指利用特定算法对原始文本向量进行处理,使原始数据中的邻近对象形成核心明确、分布较为离散且粒度小的话题集合,将话题集合进一步划分为多个“微簇”,利用特定算法,对“微簇”进行二次聚类,用满足一定的阈值要求、质量较高的核心对象代表“微簇”。
第三,利用话题综合评价标准对话题进行过滤。运用语义识别技术,对之前采集的数据信息进行更深一步的过滤识别,通过对数据信息中句子的结构、语法及部分关键词的词义进行过滤处理,从而将信息转化为人们常用的语言,将大量复杂的信息简单化。从进行过聚类、过滤处理后的文本中提取中心词,将分析后的中心词进行组合,通过结构化分析获取中心词组,计算中心词组所涉及的文本数量,运算模块根据文本参数进行加权计算,统计热门关键词组的文本数量,获取热门关键词组的热度值。
三、加强互联网舆情数据档案信息跨维度动态管理
(一)构建互联网舆情数据档案信息管理跨维度互动模式。
“趋势与定向判断是网络舆情分析与分类的核心,是应对与引导的依据,根据汇总到的舆情信息,通过系统的分析,做出关于舆情发展趋势与走向的基本判断,这一判断主要是在定量基础上得出的定向判断。”档案管理人员应将互联网舆情大数据档案管理与互联网内容治理相结合,让数据流显现关联;将互联网舆情大数据档案管理与政府科学决策相结合,让信息流畅通无阻;将互联网舆情大数据档案管理和舆情日常管理相结合,让舆情流和谐运转。
(二)构建互联网舆情数据档案信息多元管理模式
传统档案管理结构模式中公众的参与度比较低。大数据时代为舆论的快速形成和公众对公共事务话语权的表达提供了讨论空间,由单一主体治理变为多元主体治理,多元主体治理的基本结构体现了混合的特点,多元主体治理的边界与范围不是简单的信息关联和多元混合。互联网和大数据技术拓宽了档案管理的内容,改变了档案管理人员和民众的连接与互动方式,因此需要寻求一种新的档案管理模型和良性互动的连接机制来消解传统档案管理成长的困境。
(三)构建互联网舆情数据档案信息管理回应指标体系
警惕舆情动态在复杂的演进过程中出现的不和谐因素,准确界定舆情等级,通过级别划分、舆情聚类、有效处置和事后评估构建舆情回应的指标体系,通过行为干预及早进行有效处置,汇编典型事件档案库。档案管理人员应从追问事实到反思制度,从线上舆论和线下互动的有效对接到挖掘方法和社会洞察的有效结合,构建互联网舆情档案管理回应指标体系,改进和完善档案管理中的制度性、结构性问题。