大数据环境下网络舆情分析在企业管理中的应用研究
2018-12-19余宏
余宏
(豫章师范学院数学与计算机分院,南昌330103)
0 引言
1 网络舆情与企业网络舆情
1.1 网络舆情的大数据特征
舆情是指在一定的社会空间内,作为主体的民众对作为客体的企业、组织、个人及相关的中介性社会事件的发生、发展和变化所持有的信念、态度、意见和情绪的总和。网络舆情是社会舆情在网络空间中的映射,是社会舆情的直接反映。随着移动互联网技术的广泛应用,人们更习惯于通过网络途径表达自己对社会热点事件的态度和看法,网络已经成为反映社会舆情的最主要的载体之一。
大数据(Big Data)是指数据规模大到无法通过常规软件工具在一定时间范围内进行捕捉、管理和处理的数据集合。大数据不但表现为数据体量巨大(Vol⁃ume),而且具有数据产生的速度快(Velocity)、数据类型多样(Variety)、价值密度低(Veracity)等特点,简称大数据的4V特征。由于互联网的开放性,加上移动互联网应用的普及,使得广大的网民和社会群体通过网络发表言论、上传多媒体数据变得空前的便捷。这使得网络舆情数据呈现海量式增长。其次,人们通过博客(Blog)、微信、论坛等应用平台参与评论时不仅有文本文字,还可以是图片和视频等非结构化的数据,使得网络舆情数据类型呈现多样性特征。再次,网民参与网络言论表达自由度大、舆论内容的观点多元而且多变,由于缺乏理性引导,网络舆情环境复杂、变化快。最后,网络舆情知识并不是在互联网中直接存在,而是要通过信息技术手段从海量的网络舆情来源数据中经过挖掘获得。可见,网络舆情数据具备大数据的4V特征。
1.2 网络舆情的社会网络化特征
1.3 企业网络舆情的特征
企业网络舆情是网络舆情在互联网空间的进一步降维映射,是以企业为对象、事件为核心,公众借助网络对企业事件表达的多种情绪、态度和意见的集合。
在当前社会网络大数据背景下,企业网络舆情主要通过网络博客、新闻网站、论坛、社交网络应用平台(微信、微博、QQ等)及电子商务平台进行传播,这种传播方式使得企业网络舆情与其他社会网络舆情一样,具有以下共同特征:
(1)互联网的无形无界及开放性结构打破了人与人之间交流的时空限制,使得舆情信息的存在空间呈现开放性和虚拟性;
(2)移动互联网应用技术的发展增强了移动端信息推送功能,使得网络舆情信息的传播具有实时性;
本研究中,与≥90分组患者相比,<70分组患者LVEF较低、pro-BNP较高、住院时间更长、消化道出血更多见,心脏破裂或室间隔穿孔发生有增加趋势。<70分组患者年龄更大、女性比例更高、因STEMI就诊比例更高、急诊介入治疗比例更高、入院时收缩压血压稍低,这可能是其转归较差的原因。
(3)网络参与主体可以通过网络交互操作发表和传播各种信息,使得网络舆情具有交互性;
企业级网络舆情与社会网络舆情又存在一些区别:
(1)在舆情信息处理规模上:前者仅针对互联网上与本行业企业相关的舆情信息进行处理。因此,在使
社会网络(Social Network)是指社会个体成员之间因为互动而形成的相对稳定的关系体系。在社会网络中,个体之间会形成“社交圈”和“兴趣圈”等关系。
进行网络舆情分析的数据来源分为两大类:一类是网民为表达自己针对某社会热点事件的情绪、态度和意见而通过网络发表的倾向性言论,可以是文字、图片或视频的形式。还有一类是反映参与舆论创建和传播的网民之间的关系的数据。例如,网络社交平台用户之间相互“加关注”成为“粉圈”,平台服务器能将该类反映人际关系的数据进行记录,并描述成平台用户构成的社会化网络。以人人网为代表的社交网站用户之间形成了“社交圈”网络;以微博、知识分享平台、消费点评网、团购网站等平台的用户之间其实都属于基于兴趣形成的社会化的关系网络。相对于大众网络来说,这些“社交圈”和“兴趣圈”对于企业进行网络营销来说无疑有着更积极的促进作用,优势更为明显。用计算机搜索技术从网络上获取舆情原始数据时,可以通过构建“企业信息关键词词典”,过滤出与企业相关的舆情信息,从而极大地降低企业舆情信息的处理负担。
(2)在语料的积累和交互历史的积累上:企业级的舆情数据往往比较集中在产品销售平台、企业的微信公众号、官方微博及行业论坛,因此舆情数据采集比较简单;而政府级的社会舆情数据来源是比较分散的,收集舆情资料难度大。
(3)在靶向目标方面:企业舆情管理主要针对企业客户、行业竞争者、合作伙伴等。相比之下,政府级的社会舆情管理范围更广,涉及社会的方方面面,靶向性较企业较弱。
(4)在舆情的处理方式上:企业舆情管理侧重于在充分研究社会网络的基础上,主动对行业状况、竞争对手动态及热点事件相关的资讯进行收集、分析,然后运用舆情分析的结果作出相应的决策并实施相关的动作,以维护企业的切身利益。而政府舆情管理则重在监督和防范,对不利于社会稳定的舆论进行疏导和处理,降低对社会的危害。
2 网络舆情大数据分析方法
目前典型的网络舆情分析方法主要有网络调查法、基于文本内容的舆情挖掘方法、Web使用挖掘及社会网络计算等。
2.1 基于网络调查的舆情分析
网络调查法指的是利用互联网的交互式信息沟通渠道来收集有关统计数据的一种方法,具体做法通常是在某网站或应用平台上发布问卷,由网民自行选择填答,以获取民众对相关问题的态度或倾向性。
通过网络调查获取舆情信息有利于舆情管理工作化被动为主动,信息反馈及时、针对性强,便于更确切地了解网络舆情的动向。缺点是调查结果的可靠性受受试者影响大,很难选取调查的“最优抽样”样本。
2.2 基于文本内容挖掘的网络舆情分析
广义上,网络舆情分析包括从舆情数据的采集开始到提供舆情知识服务这一系列的过程,如图1所示:首先是通过网络爬虫从互联网上抓取舆情数据,对抓取的网页进行数据预处理,在数据预处理的基础上抽取文本特征项并对文本进行建模;然后利用数据分类和聚类等算法进行舆情知识的挖掘;最后将分析结果以可视化、易理解的形式提供给用户。
图1 基于内容挖掘的网络舆情分析流程
上述过程除了要用到搜索引擎技术和自然语言处理技术外,最核心的技术包括网络舆情话题发现与追踪技术、网络文本情感倾向性分析技术。
网络舆情话题发现与追踪指的是从互联网上众多讨论话题的海量信息中找到热点、敏感话题。传统的做法是抽取文本关键词作为文本特征,通过关键词的相似性度量来进行文本的聚类,但该方法产生的话题准确性和可读性不高。有学者提出将文本聚类问题转换为话题特征聚类问题,并依据事件语言文本信息流进行重新组织和利用,实现了话题的发现与追踪,且话题分类的准确度和可读性大为提高。
文本情感倾向性分析主要借助包括自然语言处理、机器学习、文本挖掘等计算机智能技术计算出网络评论者的情感倾向。其中,支持向量机算法、朴素贝叶斯算法和基于字符的N-Gram模型这三种标准的监督机器学习方法被证明是较好的情感分类算法。而且,文本内容越短,其情感分析效果越好,这主要是因为长文本中所包含的不利于情感计算的噪音数据较多。
2.3 基于WWeebb使用挖掘的网络舆情分析
网络用户在进行网页浏览和使用搜索引擎进行信息搜索时都会在服务器上留下“足迹”,包括用户的IP地址、访问时间、访问页面的URL地址、搜索词等日志信息。
根据Web浏览日志采集被高频访问的网页样本进行聚类,根据聚类结果,选取用户所关注的热点页面簇进行特征词抽取并构建页面簇特征向量,然后对全部网页使用页面簇特征向量进行二次聚类,得出与热点页面相关度更高的网络舆情网页集,进而可以了解网络舆情的变化趋势。
通过搜索日志记录的某段时间的搜索词进行分析,可以推理出网民关注的热点动向;通过对网络用户点击浏览的搜索结果相关页面进行聚类分析,可以发现热点事件及网络舆情产生、变化的源头。谷歌就通过搜索引擎服务器里记录的搜索日志分析成功预测了禽流感爆发的时间和规模。
2.4 基于社会网络计算的网络舆情分析
所谓社会网络计算就是通过计算机技术对社会数字轨迹进行智能分析,了解社会已经发生,监控正在发生和预测将要发生的事情,为虚拟网络社会的科学管理提供有效的参考依据。
在社会网络中,有一大类是社交网络,这类网络的用户,不但有内容,用户之间还相互关注、评论、转帖,用户之间的这种相互“关注”关系可以采用结构图来表示。在不同的社会网络中,把内部联系紧密、外部联系稀疏的一群用户称为社区,它代表着不同应用领域的实体关系群。在社区中信息传播的速度更快,社区中的网络舆情主体之间进行频繁联系,例如关注、评论、转帖等互动过程,从而会产生社区舆论的“意见领袖”,他们很大程度上决定着整个社区的舆论走向。因此,从浩大的社会网络中通过社区发现算法(如LCA算法)挖掘出高质量的社区;以及从社区中找出意见领袖是社会网络计算的基本任务。
3 网络舆情分析与企业管理的结合
在互联网大数据时代,新媒体已经成为公众表达诉求的重要平台与载体,特别是随着移动互联网技术的不断创新和自媒体的快速发展,公众关注社会热点事件更加的便利,舆情信息的负向效应容易迅速放大,从而引发热点舆情事件。企业如果在舆情分析与应对方面滞后,容易导致企业声誉受损、经营业绩下降,给企业带来重大负面影响。因此,如何全面、及时、准确对网络舆情信息进行有效监测,提高网络舆情管理能力,是当代企业保持良好形象、维护品牌口碑、提高市场销售业绩及促进企业稳健发展的重要战略。
3.1 基于网络舆情分析实现品牌危机管理
企业的品牌危机管理不是等到危机出现以后才去匆忙应对,而应该在企业的日常管理中有一套监测和预警机制。企业可以根据自身所处的行业性质、所生产的产品和服务以及企业品牌等相关信息确定舆情监测的主题。利用主题特征关键词对各大门户网站新闻评论、论坛、大众点评网、微博平台等容易形成突发舆情事件的“爆发点”进行布控,通过基于内容的主题网络舆情挖掘技术识别出某个时间段出现的有关本企业形象和品牌的热门话题并对其进行追踪。一旦锁定某舆情事件与本企业有关,接下来就要把握舆情事件的舆论动向,通过舆情文本情感倾向性分析技术了解网络民众对突发事件的态度和立场,从而为制定危机应对策略提供依据。企业在采取了相关应对措施后,可以通过网络舆情主题跟踪技术,分析近段时间新发表和转发的文章、帖子的主题及文本的情感倾向性是否与舆情事件爆发初期相同,从而观察和确定消费者、公众和媒体等方面的舆论关注点、态度的变化,如果发现危机得到缓和,要采取措施转移事件的关注点,以恢复和提升品牌形象。
3.2 基于网络舆情分析实现 .2 BB营销
与传统的B2C营销模式相反,C2B(Customer to Business)是从消费者到企业的商业模式,即先有消费者提出个性化需求,后有企业按客户需求进行产品定制化生产。在传统环境下,企业为单个用户量身设计和定做一件产品的成本非常高企、价格昂贵。但随着Web2.0的发展,在社会网络大数据环境下,具有相同需求的消费者形成一个特殊的网络子群,群里的用户可以团购定制某个特殊产品,订购数量达到一定规模后,就能达到降低生产成本和售价的目的,从而使得企业采用C2B营销模式实现盈利成为可能。
因此企业首先需要通过社会网络计算,从浩大的社会网络中挖掘出对某类产品有共同兴趣的用户群;接下来需要采用情感倾向性分析技术,对“兴趣圈”子群内客户发表的舆情信息(如客户对产品或卖家的相关评论)进行挖掘以了解用户的意图;企业还可以参与兴趣用户群的讨论,并优化企业舆情管理。
3.3 基于网络舆情分析实现信息推荐系统
当今,互联网已成为人们获取信息的重要途径,然而互联网上的“信息泛滥”使人们很容易在海量的信息中迷失,商品信息推荐系统就是要根据用户的不同需要、兴趣、习惯等个性化因素,向用户提供差异化的商品或服务以满足用户的个性化需求。其核心就是通过采集和分析用户信息来获取用户的偏好特点和行为模式,然后把满足该特点和模式的商品或服务信息传送给潜在目标用户,以解决“信息泛滥”的问题。
常用的推荐方法有基于Web使用日志挖掘进行关联推荐和社会网络信任关系推荐。例如,通过分析用户在Web日志、搜索日志及购物清单中留下的浏览、搜索、购买商品的“痕迹”,获取用户的购物习惯、偏好及潜在需求商品的属性,然后利用关联规则技术找出与该商品属性相似的产品,并在用户浏览商品时进行自动推荐。像京东商城、亚马逊和天猫等就是采用该方法进行商品个性化推荐。
社会网络个性化信息推荐可以分为用户之间的信息推荐、及企业对用户的信息推荐。社会网络中潜藏着用户之间的信任关系,信任关系强的用户之间预示着他们之间进行信息传播更便捷、更频繁。因此挖掘出群体用户之间的行为依赖关系有助于社会网络中信息的个性化推荐的应用。另外,通过社会网络计算找出兴趣群社区中的权威用户,企业管理者可以和发现的权威用户建立友好关系,让其经常转发或评述与企业有关的正面信息;而对于企业的负面信息,力争使权威用户的邻居少进行或不进行扩散。
4 结语
随着Web2.0技术的广泛应用,网络用户成为互联网内容的创造者,可以轻松发布关于企业动态的信息,表达自己的情绪和意见,反馈使用产品的体验等企业舆情信息。同时,由于网络用户的社会网络化特征,网络用户发布的网络舆情信息会推送至“社交圈”、“兴趣圈”内的好友与关注者,并通过他们的转发、分享等操作传播至更广的范围,从而给企业的品牌声誉和经营效益产生重大影响。为此,企业应该对与自身相关的网络舆情进行密切监控与引导,降低负面舆情对企业的影响;通过对企业网络舆情的深入分析,挖掘出有价值的舆情知识服务于企业的管理创新。