基于文本挖掘技术的服务平台设计
2021-04-03王娟马薇刘一丹白涌如
王娟,马薇,刘一丹,白涌如
(机械工业信息中心,100043 北京)
1 调研需求
1.1 必要性
当前,舆情信息呈几何倍数增长,舆情发展复杂多变。面对这种形势,行业协会作为行业的权威组织,要及时跟踪影响行业的重大舆情事件,主动在舆论焦点问题发声,引导舆论走向,把握舆论发展趋势,增强行业协会的工作能力和服务水平。行业协会要从行业发展需要出发,建设网络舆情公共服务平台,集中舆情工作的相关资源,形成行业舆情监测分析的合力,更好地服务于行业会员企业。
1.2 现状和不足
行业协会开展网络舆情工作一般采用购买云服务方式,通常采用SaaS模式,购买服务后无须部署,服务商在云端提供7×24小时的监测,自动生成各种分析报告和数据报告,及时发现相关舆情,实现自动预警。部分有实力的协会建设了网络舆情系统,实现监测范围可维护,用户分组可维护,信息加工模板可维护。大部分行业协会由于在网络舆情监测方面投入有限,采集能力不足,信息加工利用程度低。很多协会购买的仅仅是新闻搜索,不能及时甄别发现行业的重大事件以及舆情风险。
2 发展和应用
2.1 技术应用
文本挖掘是指对文本进行聚类、分类、抽取摘要、情感分析等。文本挖掘也就是自然语言处理,是人工智能的一个分支,其核心目的在于让机器理解人类语言。大数据时代,经过大量“训练”后的计算机可以代替人类解决重复枯燥的巨量文本文档处理任务,例如众多行业的智能问答、机器翻译、文本分类、文本摘要、标签提取、情感分析、主题模型等方面。文本挖掘技术的基础应用分为四类。第一类是抽取,指计算机识别关键要素,自动解析文本,从文本中提取出要素并进行结构化处理。第二类是划分,指计算机基于相似性算法的聚类技术,自动进行归类,可自动为该类生成主题词,也可对典型的评论意见等各种观点进行识别和划分。第三类是转换,指计算机把文本转换成更正确的语言方式,帮助人们发现文本中的错误并修改。第四类是合成,指计算机按照结构化的要素组合设计,实现新的文本生成。
2.2 平台应用
由于行业协会拥有较多的下级分会机构、行业大中型企业会员,因此构建基于SaaS的网络舆情服务平台是较为经济的方案。SaaS平台是互联网软件服务模式,相较于传统开发专用系统的方式,优势非常明显。一是节约经费。协会内的下级分会机构、行业大中型企业不需要每家都投资建设单独系统,而是集中协会内有意向的机构,一次投入、一组人马就可以开发建设,达到资源共享、效益最佳。二是更加专业。因为行业协会具有行业属性,其下级分会机构、行业大中型企业会员在平台开发建设和投产应用过程中,在行业特征方面具有高度的关联性,这有助于文本数据的处理和机器学习的加快改进,有利于平台的能力优化。三是采用平台方式,系统的安全性和数据的安全性都有望提高,同时也避免了应用程序的漏洞或者恶意特权用户泄漏敏感信息。相较于云服务方式,行业协会因为下级分会机构、行业大中型企业会员用户较多,这种情况更加适合采用SaaS方式,对所有下属单位、分支机构的应用需求都提供充分支持,通过提供协会内部一站式服务,有效归集本协会内的全部舆情信息采集、监测分析的人力和财力资源,实现监测范围的共性集中、用户需求特征的共性分组和集中管理、共性信息加工模板需求地集中处理等。
3 平台设计
3.1 设计原则
行业协会网络舆情服务平台设计原则有三点。一是在搜集舆情信息时尽可能关注更多的渠道,在确保信息源的权威性的同时,要重点关注与专业有关的渠道,拓宽信息搜集的广度。只有信息来源越广泛,掌握的事实越多,才能更加完整获得信息。二是要特别重视关键词的设置。行业一般都有众多的专用词汇、特定机构,要注意这些词汇的归纳整理和使用。同时,无论是借助舆情工具来检索,还是自主浏览不同平台,都需要及时更新和纳入新的关键词,不断采集更为及时有效的信息。第三是要贴近行业协会会员单位的实际需求,既要保证充分发挥出舆情监测各项技术的作用,也要充分体现出行业工作的经验积累和共性特征,深度融合,相互促进。
3.2 系统框架
行业协会网络舆情服务平台计划部署在公有云,包括舆情采集服务器、数据库服务器、舆情分析服务器和应用服务器。系统框架包括云基础环境层、数据存储层、技术支撑层、应用支撑层和舆情数据分析平台。其中支撑层提供舆情数据采集、集成、治理、分析、应用的各类基础技术支撑服务。应用层汇集行业舆情数据资源,进行加工处理,提供行业舆情数据分析服务,搭建行业舆情服务门户以及拓展其他应用服务。
3.3 规划配置
平台建设目标是采用SaaS模式,为行业协会及其下属专业协会、行业重点企业提供互联网舆情监测及智能分析服务。通过调研行业协会、会员单位及行业相关机构的需求,考虑到行业特征因素,梳理舆情大数据应用业务场景,规划业务模型。按照业务模型,明确业务数据来源、数据标准、治理规则、整合方式、计算模型、分析模型、应用模型等数据规划。
按照数据规划,梳理各类业务的舆情数据来源,明确来源主体、数据形式、集成方式、集成频度、ETL规则、目标位置、可信度等信息。此外,根据调研情况,协会现有已建成在运行数据中心,数据存储系统无须新建。
3.4 数据采集
数据采集过程是先确定采集对象,其数据源可能包括“政府网站”“行业网站”“期刊杂志”“社交媒体”“相关系统”“外购数据”等。采集工具包括API、网络爬虫两种。数据采集和数据治理负责将不同数据源的舆情数据进行采集、汇聚、抽取、治理,最终为监测业务提供舆情数据支撑。采集过程包括数据清洗、文件格式重定义、排量设置等预处理,由采集工具、程序编制或人工进行筛选,根据采集目的和采集对象对信息进行句义分析、风险定级和等级判断,人工设置审核规则,再自定义关键词、设置相关性排序、阅读行为记录,采集原始数据并发布。数据采集业务系统可划分为统计报表管理、图表分析管理、舆情报告管理等多个系统。
3.5 文本挖掘
平台支持针对非结构化文本数据的挖掘方法,包括正文提取、中英文分词、词性标注、实体抽取、词频统计、关键词提取、语义信息抽取、文本分类、情感分析、语义深度扩展、繁简编码转换、自动注音、文本聚类等常见文本挖掘方法,基于以上基本方法提供文本精准检索服务、新词发现功能、词频统计功能、分类过滤功能、文档去重功能、自动摘要功能、文本聚类及热点分析功能等。其中文本聚类是基于相似性算法的自动聚类技术,自动对大量无类别的文档进行归类,把内容相近的文档归为一类,并自动为该类生成标题和主题词。
基于上述方法和功能,平台面向机构用户提供文本挖掘功能,包括:舆情检索,指按时间轴、关注点、热门度、点击率、搜索量等进行多角度、多维度舆情的信息浏览;舆情标签,指常用标签和自定义标签的分类功能,如词云分类、地域分类、行业分类等;舆情来源,指发现网络舆情话题的源头;数据分析,指可视化的数据维度展现;数据报告,指数据分析结果生成报告。提供的服务功能有订阅、推荐、热点、线索、观点、倾向、报警、分析、报告、词云等。根据用户需要,可增加“人物关注”功能,指监测跟踪网络舆情对行业知名专家、企业家等重要人物的关注和评论,实时掌握专家观点、活动、相关信息。可增加“舆情评价”功能,指跟踪监测网络舆论对机构自身的关注和评论,掌握看法口碑等趋势变化和负面预警,提升机构的影响力、知名度和美誉度。可增加“内参快报”功能,指面向行业高层领导,就高层领导关心的重大事件、行业突发性的重大事件、舆情系统监测中发现的突发事件进行及时分析,提供初步研判报告,向高层领导提供专报。对行业出台的重大政策进行长期跟踪监测,提供政策传播率、政策知晓度、政策获得感、政策实施效果评价等方面的信息反馈,定期向高层领导提供专报。
3.6 功能扩展
可适时开发移动端App,与PC端无缝连接,扩大平台应用的时空范围。随着参与平台的机构不断增多、平台采集信息的范围不断扩大、平台的舆情成果不断增多,借助文本技术和数据建模,平台还可以进一步扩充应用场景。如竞品分析、精准营销、市场研究、客户满意度分析、事件舆情评估、新产品推广等。