BI工具嵌入编程语言助力企业数字化管理决策
——以某运营商的体验问卷数据分析为例
2023-06-07胡琴
胡 琴
(上海邮电设计咨询研究院有限公司,上海 200092)
1 现状
1.1 企业管理决策面临的问题
大数据背景下,企业管理决策的环境越来越复杂,存在决策滞后的风险。虽然企业可以通过问卷调查、购买以及采集等各种方式获取多种多样的海量数据,制定基于数据驱动的管理决策方案,但是大数据的数据信息在不断更新,会加大企业筛选具有价值信息的难度,使企业决策环境更复杂[1]。低效率的管理决策程序会降低决策的效果,影响企业的发展,因此企业应简化决策程序,以提高决策价值[1]。
1.2 BI 工具助力企业数字化管理决策
BI 工具流程简便,可以实现数据自动更新,只需要简单的几个操作就可完成。BI 工具不仅可以通过自嵌的智能算法进行趋势预测,而且还可以通过嵌入Python、R 编程语言的算法包进行数据挖掘。BI 工具不仅能提高企业中高层的决策水平和效率,而且还能使企业的每个员工都成为决策者。如何进一步加快大数据分析技术应用,构建适应管理决策研究特点规律的定性与定量相结合、数据分析与专家知识相互渗透的数据驱动技术工具和模型,提高基于数据的管理决策分析质量和能力,是未来该领域研究的重点方向之一[2]。
2 数据分析工具助力企业数字化管理决策
2.1 数据分析工具
在数字化转型的浪潮下出现了各种数据分析工具,性能较好的数据分析工具见表1。
表1 数据分析工具统计表
数字化时代,大多数企业都会拥有自己的信息系统,其中积累了大量的数据。信息系统中的原始数据价值很小,只有通过智能化的数据分析方法抽取其中的精华,才能转变为信息“金矿”,为人类造福[3]。数据的智能化分析是通过建立数据模型实现重复操作的模块化。一般智能数据分析会通过各种数据统计、数据分析、数据挖掘以及数据可视化等工具来实现。
2.2 Tableau
Tableau 是企业比较常用的一款BI 数据分析工具,其拥有非常强大的数据可视化功能。为了在已有功能的基础上进一步扩展编程语言的功能,Tableau 在2016 年发布了一个可以在Tableau 工作簿中运行Python 代码的新API——TabPy。并且从第八个版本开始,Tableau 增加了R 语言的接口,R 脚本也可以在Tableau 中运行,自此R 强大的数据统计、挖掘功能也能在Tableau 中实现了。科学合理的决策源于数据,借助世界一流的BI 分析工具能让企业做出更明智的管理决策。
2.3 BI 数据分析工具嵌入编程语言
编程语言随着信息技术的发展已逐步进入BI 数据分析工具,例如通过内嵌Python、R 编程语言的算法包(jieba 中文分词、K-Means 聚类等),可以实现对BI 数据分析工具中的数据进行挖掘分析的功能。
该文在Tableau 中嵌入Python 编程语言的中文分词工具——jieba 库,实现了对调查问卷中文本的关键词进行提取的功能。通过在Tableau 中嵌入R 编程语言的K-Means 聚类算法,实现了根据客户评分对31 省的评分进行聚类分析的目标。
3 Tableau 嵌入Python 进行BI 数据分析
3.1 分析体验问卷中的文本
在某运营商人工客服体验项目中,当对体验问卷中的文本进行分析时,会遇到需要利用工具来对文本中的关键词进行提取的问题。为了解决该问题,该文采用嵌入Tableau 中的Python。Python 编程语言一直都是最受欢迎的编程语言之一。该文采用Python 中的jieba 库,jieba 库中的jieba.analyse.extract_tags 函数可以从字符串中提取关键的地名、名词、动名词和动词。文献[4]、文献[5]利用 Python 对中文文本进行分析研究。
提取关键词后,需要借助工具对关键词进行词云呈现,该文采用最受欢迎的BI 工具之一——Tableau。
3.2 Tableau 嵌入Python 提取文本中的关键词
3.2.1 在Tableau 中安装Python 环境
找到tabpy_server 的安装目录,该文的目录在D:Pycharm ProjectsPythonProject Libsite-packages abpy_server。具体参考安装目录,如果是Windows 系统,就运行startup.bat;如果是Linux 或MAC 系统,就运行startup.sh。也可以在tabpy_server 的安装目录下运行CMD,然后在弹出的窗口中输入“Python tabpy.py”和“startup.bat”。
该文使用的是Windows 系统,并把tabpy 部署在本机。显示“Web service listening on port 9004”这个信息代表服务器启动成功,开始监听9004 端口。
3.2.2 在Tableau 中连接tabpy 服务器
打开Tableau,在“帮助”栏单击“设置和性能”,再单击“管理外部服务连接”,在弹出的窗口中的“服务器”框选择“localhost”,“端口”框输入“9004”。单击“测试连接”,弹出“成功连接到TabPy 服务”的窗口,说明已成功连接,单击“确定”,就成功设置了客户端连接服务器。
3.2.3 导入体验问卷数据,提取文本中的关键词
某运营商的人工客服体验问卷“建议”字段中的文本数据(部分)内容如图1 所示。
图1 人工客服体验问卷“建议”字段中的文本数据(部分)
在该案例中总共收到了来自31 省的1 108 条建议数据,将其导入Tableau 中,单击“建议”字段右上角的“▼”按钮,下拉菜单选择“创建计算字段”。
在弹出的窗口中,将字段命名为:标签,键入函数如下。
SCRIPT_STR(“
# 导入jieba 中文分词库
import jieba.analyse
# 导入re 正则表达式
import re
#使用正则表达式过滤掉不可见的字符,如换行等,以避免报错
ctn = [re.sub(‘s’,’’, str) for str in _arg1]
#使用jieba 从内容提取关键词,只提取权重最高的1 个名词
tags = [jieba.analyse.extract_tags(c, topK=1, allowPOS=(‘n’)) for c in ctn]
#将提取结果的格式处理成字符串,以返回给Tableau
result = [‘,’.join(r) for r in tags]
return result”,
attr([建议]))
在工作表中将字段“序号”“建议”拖放至行,“标签”拖放至文本。关键词就从文本中提取出来了,Tableau 中的界面如图2 所示。
图2 “从”建议“中提取出权重最高的1 个名词
如果对体验问卷中的“建议”文本数据进行了变更,只需要在对应连接路径的Excel 表格中进行更改,然后在Tableau数据源中单击“刷新数据源”就能一键实现数据的智能化更新功能。
3.3 Tableau 对关键词进行词云呈现
对“标签”中提取出来的词进行频数统计,在Tableau中将“标签”拖放到颜色、文本,“计数”拖放到大小。词云呈现结果如图3 所示。
图3 Tableau 对关键词进行词云呈现
4 Tableau 嵌入R 进行BI 数据分析
4.1 对体验问卷中的省份进行聚类分析
在某运营商人工客服体验项目中,当对体验问卷中的31省根据评分进行聚类分析时,会遇到需要利用工具来进行聚类分析的问题。为了解决该问题,该文采用嵌入Tableau 中的R。R 语言是完全免费且开放源代码的,其标准的安装文件自身就带有许多模块和内嵌统计函数,安装好后可以直接实现许多常用的统计功能,大多数最新的统计方法和技术都可以在R 中直接得到。该文使用R 语言中的K-Means 聚类算法,K-Means 算法是聚类算法中的经典算法,其原理简单、实现快速,当簇与簇之间有明显区别时,其聚类效果会比较好。但是,K-Means 算法需要事先给出需要生成簇的个数,不适用于簇差别很大的情况。
在对省份进行聚类分析后,最好能对31 省的评分进行可视化呈现,这里用到的是Tableau。
4.2 Tableau 嵌入R 进行聚类分析
先下载并安装R,然后打开R,在其中运行以下脚本。
install.packages(“Rserve”)
library(Rserve)
Rserve()
打开Tableau,在“帮助”栏单击“设置和性能”,再进去“管理外部服务连接”,在弹出的窗口中的“服务器”框选择“localhost”,“端口”框输入“6311”,单击“测试连接”,弹出成功窗口。连接成功后,单击“确定”,就可以成功设置客户端连接R 服务器。
某运营商的人工客服体验问卷31 省评分数据(部分)如图4 所示。
图4 人工客服体验问卷31 省评分数据(部分)
将其导入Tableau 中,在Tableau“分析”栏下单击“创建计算字段”,在弹出的窗口中,将字段命名为:簇,键入函数如下。
SCRIPT_REAL('
fit <- K-Means(data.frame(.arg1,.arg2,.arg3,.arg4,.arg5),centers=5);
fit$cluster',
SUM([回复内容清晰易懂]),SUM([业务熟练度]),SUM([服务态度]),SUM([客服响应及时性]),SUM([整体服务评价]))
在工作表中,将“体验省份”拖入列,计算字段“簇”拖入行、颜色和文本,最终呈现结果如图5 所示。
图5 将31 省根据评分聚类为5 大类
4.3 Tableau 对31省评分进行可视化呈现
在Tableau 中,将评分表中的“体验省份”拖入列,将“回复内容清晰易懂”、“业务熟练度”、“服务态度”、“客服响应及时性”以及“整体服务评价”拖放到行,并将标记类型设置为“区域”,添加平均值参考线后可视化呈现结果如图6 所示。
图6 对31 省评分数据进行可视化呈现
5 结语
在数字化生活背景下,传统的管理变成或正在变成数据的管理,传统的决策变成或正在变成基于数据分析的决策。企业在开展决策管理工作的过程中,可立足于数据挖掘技术对各类数据进行筛选和提炼。也就是说,通过问卷调查、购买数据以及网络爬虫等方式对数据进行采集,获取的数据经系统清洗后进行分类,分类后的数据存储在数据仓库中。然后可以通过ETL 等工具对已有的数据进行提取、转换以及加载等预处理,再使用聚类、决策树以及预测等相关大数据分析方法进行数据挖掘,从而采取可视化、商业智能(BI)等技术为企业数字化管理决策提供帮助。