如何测试呼叫中心
2015-04-15于洋思博伦通信
于洋 思博伦通信
思博伦技术专栏
如何测试呼叫中心
于洋 思博伦通信
编者按:从银行的信用卡服务中心、移动运营商的客服呼叫中心,到商旅订票系统、电子电器产品售后支持,都离不开呼叫中心。如今,呼叫中心在人们的日常生活中扮演着重要角色。而IVR(Interctive Voice Response),即交互式语音应答,是呼叫中心的核心部件。因此,对于呼叫中心的性能测试很大程度上来说是对IVR的测试,思博伦通信专业化测试服务团队则是这方面的专家。思博伦通信于洋所撰《如何测试呼叫中心》一文以思博伦测试服务工程师帮助某知名电脑制造商测试其呼叫中心为例,介绍了思博伦专业化测试服务如何使用其于Abacus的语音测试解决方案对呼叫中心进行测试。
1 引言
如今,呼叫中心在人们的日常生活中扮演着重要角色。从银行的信用卡服务中心、移动运营商的客服呼叫中心,到商旅订票系统、电子电器产品售后支持,都离不开呼叫中心。而IVR(Interactive Voice Response),即交互式语音应答,是呼叫中心的核心部件。当IVR系统繁忙或出现异常时,客户拨打呼叫中心可能面临多种问题,如拨不通呼叫中心的接入号码、听不到或听不清某一级的自动语音应答、应答延迟明显增大、不能对用户按键及时做出反应等。
因此,对于呼叫中心的性能测试很大程度上来说是对IVR的测试,思博伦通信专业化测试服务团队则是这方面的专家。本文以思博伦测试服务工程师帮助某知名电脑制造商测试其呼叫中心为例,介绍了思博伦专业化测试服务如何使用基于Abacus的语音测试解决方案对呼叫中心进行测试。
2 如何测试
(1)测试内容
针对呼叫中心(IVR)的测试一般分为两个层面,即性能压力和语音匹配测试。
通过性能压力测试,实现:最大容量测试,即确认被测IVR系统(DeviceUnderTest,DUT)的最大并发呼叫处理能力(无差错点);稳定性测试,即尝试找出DUT在其可承受的最大压力条件下持续无故障工作时间。
语音匹配测试直接体现用户拨打呼叫中心的实际感受,它们可以遍历所有IVR语音路径分支或任何重点分支。此外,语音匹配测试可分为多个步骤进行,即单呼叫下的功能遍历;指定呼叫量条件下的测试,指定呼叫量可以是低、中等负载强度,也可以是在高负载下测试最大顺畅并发呼叫数/最大顺畅呼叫速率,还可以是在极限负载下测试呼损率和系统异常表现。
(2)测试拓扑
如图1所示,思博伦Abacus语音测试系统可以模拟终端客户,以E1/ISDN或以太网/SIP的方式拨入呼叫中心,遍历IVR的整个呼叫流程。例如,若Abacus 5000中配置一块14口E1PCG3单板,即可以模拟并发420路电话拨入。
(3)测试指标
●VPMFactor(语音匹配度)
语音匹配度体现着IVR播放的语音与预先导入到Abacus上的期望语音之间的差异。比如,VPMFactor的取值空间为1.0~10.0,当VPM Factor的值在9.0~10.0之间时,表示匹配度很高,两个语音除了个别音节外全匹配。VPMFactor值越小,匹配度越低。当该值在1.0~5.0之间时,表示即使有些许匹配之处,但仍可断定从IVR听到的语音与Abacus预存的期望语音完全是不同的内容。
●VoiceMatchingDelay(语音匹配延迟)
语音匹配延迟,记录了IVR呼叫流程中执行某个动作到匹配到特定语音之前的等待时间。例如,某银行信用卡服务中心流程中,从按“1”选择“中文”,到听到下一级的主菜单语音播报之间的等待时间。在低负载条件下,这个时间一般是短暂且稳定的(如1s左右),当负载增大到一定程度,语音匹配延迟可能增大且不同的话路间抖动厉害。影响用户的使用感受甚至导致用户挂机。
●最大容量(或最大并发呼叫数)
属于压力测试范畴,该值体现了在无差错点的条件下,即呼叫100%成功完成,被测IVR系统的最大并发呼叫处理能力。在最大容量测试中,允许出现语音匹配延迟较大(如10s),或VPMFactor<8的情况。
●最大顺畅并发呼叫数
该值体现在“顺畅”条件下,IVR可以承受的最大并发呼叫数。所谓“顺畅”,是指语音匹配高、语音匹配延迟小的情况。它直接反映出客户拨打呼叫中心时的使用感受。用户可以根据不同的应用场景来定义自己的“顺畅”条件,如VPMFactor>8.2,语音匹配延迟<1.5s。
●最大顺畅呼叫速率
类似地,该值是在“顺畅”条件下的每秒呼叫次数。
●指定BHCA(Busy Hour Call Attempt)条件下的呼叫成功率
BHCA为忙时呼叫次数,表示DUT在一个小时内最大的呼叫处理次数。BHCA一般用来表示系统的呼叫处理能力。在指定的BHCA下,记录呼叫成功率,对于IVR系统来说,通话异常中断、语音严重不匹配都可被认为是呼叫失败。
3 测试案例
某知名电脑制造商采用思博伦Abacus语音测试解决方案,对其售后服务呼叫中心进行了测试。该呼叫中心的呼叫流程如图2所示。
用户开始拨号,接通后听到“欢迎”语音,然后用户被告知按键“1”进入“语言选择”,执行按键后进入主菜单,呼叫中心要求用户朗读报修笔记本的产品序列号。随着深入呼叫流程中的某条路径,人工坐席(售后技术支持工程师)接听电话并与用户交流。整个呼叫流程持续10min。
思博伦Abacus测试仪模拟单个或指定数量的用户(话机)拨入,遍历上述IVR的呼叫流程,包括拨号、聆听(等待)、按键、语音宣读产品序列号、播放语音模拟与坐席通话等。
(1)测试需求
图2 呼叫流程示意图
●语音匹配度测试(VPM)。
●响应延迟测试。
包括:T1,从拨号接通至听到“欢迎进入…”语音之间的延迟;T2,按“1”键后到听到某台笔记本电脑保修状态的“宣读状态”语音的延迟;T3,按“1”键后到人工坐席摘机的延迟。
注意:测试中需要使用4条E1,即共120路电话同时拨入。拓扑如图3所示。
图3 拓扑示意图
(2)测试配置
首先要完成基本的120话路的E1/ISDN的呼叫配置,例如针对E1的物理层参数配置和ISDN呼叫配置。然后,需要在Abacus上定制呼叫流程,这个呼叫流程与呼叫中心IVR系统中的流程相匹配,即顺序执行:拨号、聆听(等待)、语音匹配度衡量、按键、语音宣读产品序列号、播放语音模拟与坐席通话等操作,呼叫流程参见图4。
其中,语音匹配度衡量通过将两个声音文件进行比较来完成,即在单用户条件下录制的IVR系统播放的优质语音(也可由IVR系统提供语音拷贝)与120话路并发时听到的语音进行比较。
Abacus模拟的每路通话在一次呼叫中,随着呼叫流程的深入,可以执行多次语音匹配度衡量和响应延迟测试。并且可以配置用户指定的阈值告警,比如语音匹配度VPMFactor的值小于8或听到的语音延迟大于10s后出现告警。
呼叫及期望得到的结果配置为:并发呼叫数:120(E1/ISDN PRI);呼叫时长:600s;VPM Factor阈值:8.0。具体参见表1。
(3)测试结果及价值
●测试结果
在测试开始后,120部Abacus仿真的话机拨打呼叫中心号码,同时开始对某个呼叫流程的遍历。
Abacus运行过程中的实时统计如图5所示,可以看到诸如语音匹配度(VPMFactor)和语音匹配延迟值。
此外,Abacus还可以通过定制化的脚本,按照指定格式将测试结果输出到文件中,包含用户感兴趣的统计信息,如语音匹配度(单个或多个)、匹配延迟(单个或多个)、呼叫是否成功等。
图4 呼叫流程示意图
表1 呼叫及期望得到的结果配置
图5 Abacus运行过程中的实时统计
表2中记录了120个话路运行20min的结果(有删节)。由于每通呼叫持续10min,因此每个话路在20min内分别完成了2个回合的呼叫,即从第1路到第120个话路顺序起呼,每路通话完成后随即发起第2回合呼叫。
结果中记录了每个话路的起呼时间、回合数、话路ID、使用的序列号、是否接通、指定位置的呼叫延迟和语音匹配度等。
●结果分析及价值
如表2所示,针对被测IVR系统(DUT),可以帮助用户获取以下内容:
——功能遍历
通过单话路测试,可以验证DUT是否按照预期工作。
比如,是否可以拨通呼叫中心,在拨通后等待多久听到“欢迎”语音;“欢迎”语音的匹配度如何;是否通过朗读待修笔记本电脑的序列号可以进入维修流程;按键“1”后用户等待多长时间后模拟的人工坐席摘机。
——低负载条件下DUT的表现
通过低负载测试,可以帮助用户发现多用户测试(但并发呼叫少,呼叫速率低)与单用户条件下DUT表现的不同。
表2 测试结果(有删节)
通过对表2中的数据分析,可以发现在初始阶段,负载很轻的条件下,DUT的语音延迟小(约1.3s),语音匹配度高(9.5左右)。进而可以与单用户功能遍历进行比较,以发现问题。
——负载增加对DUT的影响
随着负载增加,DUT的反应如何呢?这取决于负载增加的规模及DUT自身的性能。
与低负载相比,随着负载增加,有的DUT没有明显变化,有的DUT语音反馈延迟明显增大,还有的DUT则出现了拒绝服务,如新的呼叫不能接通。
如表2所示,当并发呼叫数达到120路时,DUT的表现出现了明显变化,如语音延迟变大了(增加约1.5s),语音匹配度降低了(从9.5左右降低至8.3~9.0,但仍属于匹配度较高的范畴)。
——DUT的处理极限
Abacus可以帮助用户了解DUT的处理极限。
Abacus可以模拟大量的E1/ISDN或以太网/SIP呼叫。当并发呼叫数或呼叫速率到达一定的高度,DUT将出现呼叫失败(如不能呼通、语音延迟超常等)。根据该数值,结合现网中的呼叫规模,用户可以有针对性地对DUT进行升级、优化。
注:此部分结果可以对上述表格中的数据进行统计得出,如记录接通状态出现“No”,语音延迟大于10s时的负载。
也可降低呼叫失败的标准,得到DUT的顺畅处理极限。例如,接通状态全部为“Yes”,语音延迟低于4s时的最大顺畅并发呼叫数或最大顺畅并发呼叫速率。
——DUT的稳定性
稳定性是DUT在指定负载条件下长时间运转时的表现。这项指标对于一个即将投入生产环境的IVR系统来说是非常有借鉴价值的。
比如,对DUT以最大顺畅呼叫速率施加负载,评估DUT在24h内的性能表现。