APP下载

档案学视角下网络舆情大数据的采集、研判和归档研究

2018-01-13冉朝霞

档案管理 2018年1期
关键词:舆情资源信息

冉朝霞

摘 要:网络舆情大数据信息与纸质和实物档案一样具有档案特质,是社会生产生活中形成的能够反映社会原貌的文字、图片、视频、音频等多种表现形式的历史记录,具有长久保存和归档价值。采集、研判和归档有价值的网络舆情大数据信息是大数据时代对档案工作提出的新要求。

关键词:舆情大数据;采集;归档

1 大数据背景下积极创新网络舆情的采集机制

1.1 数据采集。运用网站API、网络爬虫等技术获取舆情信息。API从网站提供商获取舆情数据,网络爬虫设定目标网站、爬行间隔和存储位置,自动批量化获取网页数据。整合各信息系统,确保信息收集全面、及时、准确,将舆情信息系统互联互通,将种类繁多的数据整合转化为可视化数据。

1.2 数据预处理。数据预处理是指对首次采集的原始数据进行二次处理,删除多余、重复、失真等舆情噪音,确保舆情真实、客观、全面。数据预处理常用的技术手段有三种:第一是对文本进行预处理。对通过舆情采集器获取的未加工的 Web 文本进行初步处理,以便后期对这些 Web 文本进行建模、发现话题等。第二是对话题进行检测。经过文本预处理,使得文本语料库变成VSM向量集。话题检测就是利用 VSM 向量之间的相似度,对文本进行聚类。第三是利用话题综合评价标准对话题进行过滤。

1.3 数据存储。数据存储从本质上说是一个分布式存储系统,它将网络舆情大数据保存在多个远端服务器中,这样本地存储设备或者某个远端服务器出现故障,存储信息出现丢失,另外存储设备中的备份数据将会自动提到恢复作用,从而增强了存储系统的可靠性。

2 大数据背景下努力完善网络舆情的研判机制

2.1 网络舆情的定量研究判断。网络舆情由无数个舆情信息元素构成,一般而言,一个完整的舆情信息具有多重元素,包括舆情信息文本、舆情信息发布者、舆情信息传播者、舆情信息传播平台等。在舆情研究判断的实践方面,与舆情信息量化分析直接相关的帖子数量、跟帖数量等是研究判断的重要指标。

2.2 网络舆情的定向研究判断。对于突发性群体事件的网络舆情治理来说,要关注它的形成过程,从网络上出现舆情信息或意见时起,网民就通过点击、发帖、跟帖等诸多形式参与其中,在传播和评论过程中,分化出诸多观点,观点之间既有联系,也有冲突。对网络舆论要有针对性地分析,判断出是多數网民共同的意见和观点还是某一特定群体的意见和观点。

2.3 网络舆情的定点研究判断。从整体上看,网络舆情是网民意见的反映,舆情的发生、发展、演变是网民总体推动的结果,但其中一些关键网民,在舆情从量变到质变的过程中发挥着关键作用,对突发性群体事件中网络舆情的处置和沟通也起着关键作用。

2.4 网络舆情的定性研究判断。在网络舆情向网络舆论的转化过程中,一般需要经过舆情信息关注、引发讨论、形成主导意见、舆论生成四个阶段,其中每一个环节都离不开信息的传播和意见的交流,厘清一些影响传播和交流的关键性因素以及非正常因素是舆情研判过程的重点。

社会舆情的研判分析机制是对舆情的定性与定量、定点与定向给出的一种价值和趋向判断的过程。 社会舆情的研判工作是一项系统工程,既是对社会舆情进行日常性和持续性跟踪与搜集,并在此基础上建立网络舆情信息库,又是针对某一突发事件或某一特定任务进行有针对性的研判工作,任务完成则舆情活动便随之结束。需要建立快速有效的研判分析机制,利用现代科技手段对网络信息进行科学采集、上报、归并、整理、汇总、分析和研判。

3 档案学视角下着力构建网络舆情的归档机制

3.1 网络舆情大数据信息归档原则

3.1.1 分层定位原则。分层定位原则主要从两方面入手:网络舆情信息自身分层和归档机构分层。网络舆情分层源于信息自身复杂性和多样性特点,归档工作中对信息分层处理可以保证网络信息归档的针对性和有效性,不同层别网络舆情信息应区别对待。依据归档信息重要性由小到大依次排序,可以将网络舆情大数据信息分为链接级、镜像级、服务级和档案级等几个级别。不同管理职能、不同类型的档案机构也应当根据其业务和服务对象有所侧重,分别制定符合自身机构网络舆情信息资源存档实施方案。地区性综合档案馆是当地信息保存服务机构,网络舆情信息资源归档也应当具有区域性,以本地区范围内网站信息或与本地区相关的网络舆情信息作为归档重点。

3.1.2 信息鉴定原则。网络舆情信息资源归档的对象是有选择性的,因此信息鉴定甄别应是重要的归档原则。信息鉴定原则主要包括信息价值鉴定和信息真伪鉴定。档案价值主要依据网络舆情信息是否具备保存和利用价值来判定,传统文书档案价值鉴定一般从时间、来源、形式和内容等方面去综合分析,网络舆情信息资源价值鉴定亦可以借鉴此类方法。由于网络信息资源数量庞大,内容形式复杂,因此,网络舆情信息真伪判断是一项依托于科学性、客观性、时效性、可理解性等一些定性指标做出鉴定的工作。

3.1.3 权责明确原则。网络舆情信息资源归档工作需要归档主体之间划分明确权责,制定适合自身责任与权力的网络信息资源选择标准,各司其职,履行机构承担的网络信息资源归档保存的责任。基层档案业务机构负责对与本机构业务相关的各类网络信息资源进行采集和归档,定期或不定期地向国家档案馆移交具有长久保存价值的网络信息。地级档案机构承担当地区域内或者与当地相关的网络舆情信息资源的采集归档任务。档案馆承担了政府机关的政务活动、企事业单位和民生问题等方面舆情大数据信息的归档工作,合作对象是政府机构、企事业单位和个人,主要采集归档政府网站、企事业单位网站和微博、微信公众号、电子邮件、网络论坛等信息交流平台的网络舆情信息资源。

3.2 网络舆情大数据信息归档方式

3.2.1 物理归档。物理归档是把系统采集到的网络舆情信息资源集中传输至可独立或者可脱机保存的载体后再移交给档案部门的过程。物理归档又可分为介质归档和在线归档。介质归档是将采集到的网络信息资源存储在一定介质上移交给档案部门。在线归档是将要归档的网络舆情信息资源通过网络直接传输到档案部门系统,或者加工后传输到网络部门规定的URL中,从而使得信息传递存储在档案部门载体中。endprint

3.2.2 逻辑归档。逻辑归档是利用网络信息共享优势,不改变网络舆情大数据信息原有存储方式和位置而实现网络舆情大数据信息向归档部门移交的过程。逻辑归档在不实际拥有网络信息资源的条件下实现对其安全保管和合法存取利用进行有效监控,简化了归档流程,发挥了计算机网络的共享优势。然而,在网络信息技术和规范尚未完善的情况下,采用逻辑归档须慎重,从归档部门角度而言,逻辑归档存储位置并不在归档机构,归档机构技术条件不成熟情况下,难以远程对归档网络信息资源进行安全管理和合法存取;从网络信息形成者角度而言,存储在其服务器和主机上的归档的网络舆情信息资源,在形成单位技术不过硬的条件下受到非法攻击,则会造成不可挽回的损失。为确保安全,归档部门需定期对逻辑归档的网络舆情信息资源进行脱机备份和物理归档。

3.2.3 网络实时归档。网络舆情大数据信息具有时效性和易消逝性等特点,因此为保证归档信息的原始性、可靠性、系统性和完整性,在文件生成阶段则需要对其进行捕捉采集,利用计算机网络对其进行管理。网络实时归档依托网络,存在不稳定性,为保证网络舆情大数据信息归档后能够长期保存,后续还要依托介质实体归档。这两种方式相辅相成、缺一不可,采用介质实体归档和网络实时归档形成内容相同的两份档案,网络实时归档是基础,介质实体归档是保障。网络实时归档和介质实体物理归档分属两个不同数据库,在网络舆情大数据信息捕捉采集阶段,将采集到的网络舆情大数据信息资源传输到临时网络实时归档数据库,介质归档临时数据库则接收网络实时归档数据库的网络信息,两者同时开展档案鉴定工作,经过鉴定有价值的网络信息资源,则在线传输到正式网络实时归档数据库和介质归档数据库,一式两份,分别保存。

*本文系:

1.2017年度河南省社会科学规划决策咨询项目阶段性成果,批准号:2017JC49。

2.共青团河南省委、河南省社科联2017年度专项调研课题阶段性成果,立项编号:QSNYJ2017360。

参考文献:

[1]维克托·迈尔-舍恩伯格,肯尼思·库克耶.大数据时代:生活工作与思维的大变革[M].盛杨燕,周涛,译.杭州:浙江人民出版社,2013.

[2]李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考[J].中国科学院院刊,2016(6):647-657.

[3]李磊,刘继,张雄魅.基于共现分析的网络舆情话题发现及态势演化研究[J].情报科学,2016,34(1):44-47.

[4]孙庆庆.网络社区话题特征提取及有价值话题识别方法[D].合肥工業大学,2012.

[5]吉亚力,田文静,董颖.基于关键词共现和社会网络分析法的我国智库热点主题研究[J].情报科学,2015(03):108-111.

[6]丁洁.基于社会网络的网络舆情演化研充[D].南京理工大学,2015.

[7]殷沈琴,张计龙,任磊.基于关键词共现和社会网络分析法的数字图书馆研究热点分析[J].大学图书馆学报,2011(4):25-30,38.

[8]吴晓秋,吕娜.基于关键词共现频率的热点分析方法研究[J].情报理论与实践,2012(8):115-119.

(作者单位:中共郑州市委党校公共管理教研部 来稿日期:2017-10-11)endprint

猜你喜欢

舆情资源信息
基础教育资源展示
一样的资源,不一样的收获
资源回收
资源再生 欢迎订阅
舆情
舆情
舆情
微博的舆情控制与言论自由
健康信息
健康信息(九则)