基于投诉文本记录的数据挖掘系统
2015-11-07丁东辉郭靖羽林伟佳
林 波 丁东辉 郭靖羽 林伟佳 黄 翰
基于投诉文本记录的数据挖掘系统
林 波 丁东辉 郭靖羽 林伟佳 黄 翰
本文研究开发了一套基于广东移动投诉文本记录的数据挖掘系统。系统主要分为聚类分析、情感分析和匹配文本记录三个功能模块,处理的数据是大量的广东移动的投诉文本记录。广东移动呼叫中心平均每天需要为用户提供超过70万人次的人工话务支撑,这是一个十分庞大的数字,这些大数据背后隐藏了无限的挖掘潜力。这些待挖掘的潜力无论是在公司应对消费者投诉处理方面还是在改善服务质量方面都有很重要的意义。本文是使用JSP动态网页技术开发完成。系统采用了MVC设计模式,基于Oracle 11g数据库和Tomcat7.0服务器开发平台。
随着市场竞争越来越激烈,作为企业生命力源泉的业务,各大企业开始不断地开发适合不同需求客户群的多种业务及其组合。因此如何开发出合理、合适、高效益的业务成了企业的关注热点。广东移动呼叫中心平均每天需要为用户提供超过70万人次的人工话务支撑,这是一个十分庞大的数字,这些大数据背后隐藏了无限的挖掘潜力。这些待挖掘的潜力无论是在公司应对消费者投诉处理方面还是在改善服务质量方面都有很重要的意义。
尽管以客户分析为基础开发业务将会成为企业的重中之重。未来的市场营销将会是精准营销的天下,开发出真正针对客户需求的业务,实现精准营销,才能获得客户的青睐。因此我们以开发适合不同需求的客户群的多种业务为目标,以客服文本数据为基础,提供各个业务的详细数据,分析业务的优缺点,帮助企业面对越来越激烈的市场竞争。而传统客户分析有以下主要缺点:技术手段低效。
客服系统目前仅解决了企业与外部市场进行信息接入的问题,产生的大量数据通过报表等传统的统计方法,只能得到一般意义上的业务信息反匮。其原因有以下几点:
1)数据繁复,信息过少
2)难以获得各种业务的优缺点分析
3)难以挖掘出潜在的市场规律
4)难以把将新旧数据结合,数据之间形成鼓捣
5)难以获得业务套餐组合的合理分析数据
1系统需求分析
经过多次调研分析,确定了系统的功能需求。系统的功能模块分为五个功能模块:聚类分析模块、情感分析模块、匹配文本记录模块、情感词库管理模块和关键词库管理模块。每个功能模块又有子功能。关键词匹配文本记录模块包括业务关键词库管理和匹配文本记录两大子功能,每个子功能下还有对应的功能点。用户角色分为系统管理员和用户两种角色。
(1)聚类分析模块:聚类分析模块分为投诉细项聚类分析和投诉原因短语聚类分析两个子功能。聚类分析模块对每个时间间隔中的投诉文本记录的投诉细项和投诉原因短语进行聚类分析,其聚类结果以云标签的形式进行显示。用户点击云标签的关键字,能够自动匹配出相对应的投诉文本记录的投诉内容。
(2)情感分析模块:系统对投诉文本记录进行情感分析,并显示出情感分析结果。每一条投诉文本记录通过分析分为三种情感程度,轻度、中度和重度。在页面加载时,统计各种情感程度的投诉文本记录,显示情感程度的分布情况。在点击“轻度”、“中度”和“重度”按钮图标是,页面显示该情感程度对应的投诉文本记录。当用户点击任何一条页面中的投诉文本记录时,显示该投诉文本记录对应的情感词信息。
(3)匹配文本记录模块:根据用户的输入,筛选并导出相匹配的文本记录。在页面加载时,业务关键词库成功显示在列表中。用户输入模糊的查询内容,从关键词库中筛选出包含该输入内容的关键词,由用户从词语列表中自行过滤掉不需要处理的词语(使用按钮“删除待匹配词语”)。确认删除后,系统根据剩余的待匹配的关键词筛选出对应的文本记录,并以文件形式导出文本记录。
(4)情感词库管理模块:该功能针对投诉文本记录进行情感分析,识别投诉文本记录的语气强度。在情感词库中,存在三种不同程度的情感词,分为为轻度、中度和重度。系统用户管理情感词分为三个子功能:新增情感词、删除情感词和查询情感词。
图1 系统功能架构
图2 数据库E-R图设计
(5)关键词库管理模块:关键词库主要是为了用户匹配投诉文本记录使用。系统用户可以进行业务关键字词库管理,分为新增关键词、删除关键词和查询关键词三个子功能。
系统设计
数据库设计
(1)E-R设计。在进行需求分析之后,各个模块的功能将比较清晰。现在进行数据库设计,本系统主要的实体主要有投诉文本记录、问题细项、投诉短语、业务关键词和情感关键词。E-R图如图2所示。
(2)在数据库E-R图设计之后,接下来进行数据库表的设计。数据库表如下:投诉文本记录表、问题细项表、业务关键词表、情感关键词表、投诉短语表。
MVC设计模式
系统采用的是MVC设计模式,即模型-视图-控制器(model-view-control)框架。Mvc设计模式现在已被广泛使用,是在80年代由Xerox PARC发明的。
图3 mvc设计模式
模型层:模型层主要是与数据库交互,封装数据,在与数据库交互的过程中系统使用的技术是hibernate。Hibernate是一个开放源代码的对象关系映射框架。
视图层:视图层使用的技术是JSP。JSP是一种跨平台的动态网页技术,还有前台技术css、javascript、js、jquery等。通过业务逻辑给用户展示不同的视图,将结果反馈给用户。
表1 投诉文本记录表
表2 问题细项表
表3 业务关键词表
表4 情感词表
表5 投诉短语表
控制层:主要是负责业务逻辑的处理,使用的技术的Struts 2。Struts2是Struts的下一代产品,是在struts 1和WebWork的技术基础上进行了合并的全新的Struts 2框架。业务逻辑与模型层进行交互然后直到最后将数据返回给视图层。
系统开发环境
操作系统:Windows xp,Win7
编译环境:MyEclipse 2014或以上版本
浏览器: IE 10、Chrome
数据库: Oracle 11g
服务器:Tomcat7.0
基于JSP的系统实现
模型层
(1)Hibernate连接Oracle数据库
Resources.properties文件配置参数:
hibernate.dialect=org.hibernate.dialect. Oracle10gDialect
hibernate.hbm2ddl.auto=update
hibernate.show_sql=true
hibernate.format_sql=false
hibernate.query.substitutions=true 1, false 0
hibernate.default_batch_fetch_size=16
hibernate.max_fetch_depth=2
hibernate.bytecode.use_reflection_ optimizer=true
//四大配置参数
connection.driver_class=oracle.jdbc. OracleDriver
connection.url=jdbc:oracle:thin:@localhost:1521:orcl
connection.username=
connection.password=
//c3p0连接池
c3p0.minPoolSize=5
c3p0.maxPoolSize=30
c3p0.initialPoolSize=10
c3p0.maxIdleTime=60
c3p0.acquireIncrement=5
聚类分析模块
聚类分析的界面设计如图4所示。在页面的上方是导航栏,对应于“匹配文本记录”、“聚类分析”页面和“情感分析”页面,这三个页面的用户角色都是普通用户。当点击文字图标时,三个按钮之间可以相互跳转,下划线代表了当前页面。
在导航栏的下方,有五个按钮图标,对应于五个不用的时间间隔,分别是“最近1小时”、“最近2小时”、“最近3小时”、“当天”和“两天内”,点击任意一个按钮图标,对相应时间间隔内的投诉文本记录进行分析。
在五个按钮图标的下方,分别是投诉细项聚类分析结果和投诉原因短语聚类分析结果两大部分。每个部分分为左边云标签和右边投诉文本记录两大块。云标签显示的是聚类分析后的投诉细项或者投诉原因短语,而右边显示的是投诉文本记录。在点击云标签上的短语后,右边需要显示相应的投诉文本记录。
情感分析模块
情感分析的界面设计如图5所示。在页面的上方是导航栏,如“聚类分析”页面的导航栏一样,实现三个页面之间的跳转。
图4 聚类分析界面
图5 情感分析界面
图6 匹配文本记录界面
在导航栏的下方,页面从上往下4大部分。首先是情感强度的显示,左边是饼状图,形象地显示三种情感程度的比例,右边显示的是情感程度比例最大的情感程度。然后是三个情感程度按钮,分别是“轻度”、“中度”和“重度”。之后是一个<select>html标签,用于显示投诉文本记录。在点击情感程度图标按钮时,下方将显示投诉文本记录。最后的话是情感词显示框。在点击投诉文本记录时,情感词显示框内将显示该文本记录的情感词信息。
图7 业务关键词库管理界面
图8 情感词库管理界面
匹配文本记录模块
匹配文本记录的界面设计如图6所示。在页面的上方是导航栏,如“聚类分析”页面的导航栏一样。
在导航栏的下方,页面分成左边和右边两大部分。左边部分是为了搜索出关键词使用,包括搜索输入框、搜索按钮图标、关键词显示列表和删除关键词按钮图标。模糊搜索中支持模糊匹配,也支持多个关键词搜索,中间用空格区分。关键词显示列表<select>标签是在点击“搜索”按钮之后返回的关键词列表显示。删除待匹配词是删除此时要匹配的关键词,不是数据库中的关键词。
右边主要是“匹配文件”按钮、“导出文本记录”按钮和一个文本提示信息的显示区域。在点击“匹配文件”按钮后,若成功匹配到文件,则“导出文本记录”按钮切换图片,变成可以点击;点击“导出文本记录”按钮图标后,将匹配好的投诉文本记录存储在一个文件中。
业务关键词库管理模块
库管理的界面设计如图7所示。在页面的上方是导航栏,对应于“关键词库管理”和“情感词词库管理”页面,当点击按钮图标时,如点击“情感词库管理”管理,系统会跳转到情感词库管理页面。图标的下划线代表了当前显示页面。
在页面的左侧,是一个下拉列表标签<select>标签,是为了显示关键词列表使用。在页面的右侧上方,是一个文本显示区域,显示查询到的关键词。文本显示区域下方对应该情感词库的三个功能,查询关键词、新增关键词和删除关键词。三个按钮在点击、悬浮和移除时会切换图标,给用户好的使用体验。最后提示信息显示区域。如“成功删除关键词”、“成功添加关键词”等等。
情感词库管理模块
情感词库管理的界面设计如图8所示。在页面的上方是导航栏,和关键词库管理的页面的导航栏是相同的,因为这两个功能模块的用户角色是系统用户,详见需求分析。
在页面的左侧,是一个下拉列表标签<select>标签,是为了显示情感词列表使用。在页面的右侧上方,是一个文本显示区域,显示查询到的情感词。文本显示区域下方对应该情感词库的三个功能,查询情感词、新增情感词和删除情感词。页面中所有的按钮按钮图标在点击、悬浮和移除时会切换图标,给用户好的使用体验。其中新增情感词是因为有情感词的内容和情感词的程度,所以在点击“添加”情感词是需要点击“轻度”、“中度”和“重度”按钮来选择情感词的强度。最后提示信息显示区域。如“成功删除情感词”、“成功添加情感词”等等。
结语
本文设计实现了一个基于广东移动投诉文本记录的数据挖掘系统。系统对广东移动大量的投诉文本记录进行投诉细项和投诉原因短语聚类分析和情感分析,挖掘出有用的信息。实验表明,将文本挖掘技术应用于广东移动投诉文本记录所开发出来的系统,能够获取客服过程中客户及时的反馈等有效信息,帮助企业来提高他们业务营销的效率,推出大众期望的新套餐或改进原有的套餐,更有针对性地解决客户的需求。
10.3969/j.issn.1001-8972.2015.21.014