异规模出租车企业服务质量考评样本量确定方法

2020-06-03朱顺应

武汉理工大学学报（交通科学与工程版） 2020年2期

余才朱顺应王红

(武汉理工大学交通学院武汉 430063)

0 引言

巡游出租车(区别于滴滴等网约车，下文简称出租车)作为城市居民出行的一个重要组成部分，是公共交通的一个补充.出租车由于其门对门的运营方式，弥补了常规公共交通可达性的不足，一定程度上抑制了私家车的增长[1].居民出行对出租车的服务质量要求也越来越高，出租车服务质量也是一个城市展示精神文明建设成果的重要窗口[2].我国对于巡游客运出租车的服务虽然规定了质量标准[3-4]，但各出租车企业由于管理文化、管理制度和标准执行程度差异，服务质量良莠不齐，所以需要对出租车服务质量进行考核监督.出租车服务质量的考核监督一般由客观独立的第三方进行.

巡游出租车第三方质量监督一般采取暗访调查形式，即调查员以普通乘客身份乘坐出租汽车，并对车辆和驾驶员服务质量进行评估.由于出租车数量多，并有移动式服务的特点，为节省考评成本一般以企业为单位采取简单随机抽样方式进行考评.大城市一般都有众多规模各异巡游出租车企业，一些城市还有个体出租车，如武汉市有57家客运出租车企业和若干个体出租车，共计1万6千余辆车，有些大型企业规模达到上千辆车，而一些小型企业规模甚至小到20～30辆车.由于企业规模的差异，大企业因车辆多，服务车辆在路边随机抽查到的概率大，小企业车辆少，在路边随机抽查到的概率小，简单的随机抽样容易造成抽样偏差，导致服务质量考评失去公平性.另外，由于出租车时刻在道路上移动，有时空分布的特点，在进行质量考核时，要充分考虑对时空的覆盖.调查需分季度追踪调查，全年共调查若干次，每次调查完成后及时将调查评估结果反馈相关部门.调查时间覆盖全天的高峰期和平峰期，调查员上车地点覆盖全市域.

为了提高考评的公平性，各企业样本量的确定是抽样调查实施的首要前提，样本量越大，抽样失真的可能性越小，但耗费的人力、物力也越高[5].相反，如果样本量太小，又会使得抽样误差过大，使得结果失真.因此，在尽可能保证抽样精度的前提下合理压缩抽样成本，是抽样设计的重点[6].

本文以武汉市巡游出租车企业服务质量第三方考评为例，以提高考评公平性为目的，研究综合服务质量和劣质服务质量考评的不同规模企业的抽样样本量问题.

1 数据与方法

巡游出租车服务质量的考核监督一般由客观独立的第三方进行.各地采取的测评指标可能有所不同，本文以武汉市客运出租车的第三方质量考评为例.考评内容分为综合服务质量和劣质服务质量两部分，综合服务质量评定的指是常规的服务质量指标，劣质服务指容易引起乘客强烈反感的恶劣服务行为.在武汉市的实际调查中，综合服务质量的考评是多属性的，包含七种类型，分别为安全性、车容车貌、车况、运营标志完整性、驾驶员个人形象及服务态度、尊重乘客合理要求和规范收费.劣质服务指标包括拒载、绕路、议价、中途抛客和招揽同乘5项.劣质服务特别容易引起乘客反感和投诉，需要经常性地进行考评[7].样本量的确定可以由这两方面出发，从综合服务质量来考虑，应该确保各企业在抽样过程中的相对误差的均衡，确保对大小型企业的公平性；从恶劣服务质量来考虑，应确保尽可能大概率地反映实际的质量水平.

1.1 综合服务质量考评样本量

在出租车服务质量考核中，样本容量的确认是其中一个重要的环节.由于企业规模差距巨大，样本量的确定要考虑两方面：①从各企业的总体服务质量来看，不同规模企业抽取的样本量应该尽量确保精度一致，这是为了保证大小规模企业的抽样公平性.总体服务质量的评定是以全年为单位来评定，因而这里说的精度相同是保证全年相同，而不是苛求每次抽样都达到某一精度.②不同企业都存在或多或少的劣质服务，需要在以一个较小的抽样规模下尽可能大概率地反映各企业真实的劣质服务几率.而对恶劣服务的整治应该是连续的，因而这里说的尽可能大概率反映真实的恶劣服务几率是每次抽查时都应该满足的要求.

首先考虑第一个问题，独立的第三方考评需要客观、真实，为提高考评的权威性，考评需要体现公平性.公平性考核有更多的要求：①随机抽样在时空上具有代表性；②随机抽样具有无偏性；③服务质量测算要有一致性，且精度相同[8].在大部分行业中服务质量的抽查都会采用简单随机抽样，由于规模差异，样本量确认公式为

式中：ni为第i企业所需要的样本量，一般为全年样本量，需要平均分配到调查次数m中去；Z为某一对应置信水平对应的Z统计量，如95%置信水平的Z统计量为1.96，99%置信水平的为2.68；σi为第i企业各属性的标准差的最大值，σi=max(σij)；σij为第i企业第j属性指标的标准差；E为容许误差.

按照式(1)，拟定参数进行样本量初步确定.由于之前没有调查数据，拟定标准差σi可参考其他调查确定，根据经验初始可取0.5，Z统计量取95%置信水平下，即Z取1.96，容许误差E取5%.

初步确定的样本量在实际调查之后应该根据实际的调查情况做相应调整.此样本量确定方案考虑了不同企业的规模差异，同时也确保了抽样的公平，体现在不同规模的企业样本量确定采用相同的置信度和抽样误差，各企业的不同服务用不同的标准差来体现.

1.2 劣质服务质量考评样本量

在出租车服务过程中，有一些让乘客体验十分糟糕的恶劣服务行为，发生这些行为时将该次服务称为劣质服务.本文归纳的劣质服务行为有五种，分别为驾驶员拒载乘客、未经乘客同意另载他人、故意绕道行驶、无正当理由终止服务和未按照计价器显示金额收费.这些劣质服务会降低公众对出租车服务行业的印象，进而影响城市精神文明风貌，需要重点关注.制定服务质量抽样方案时，应充分考虑这一方面的情况，考虑调查实施难度和经济性需要以一个较小的抽样规模尽可能大概率地反映各企业真实的劣质服务几率.

一般说来，管理能力再好的企业，也难以杜绝劣质服务的出现[9]，但是一个成熟的市场内，出现劣质服务的几率一般是比较低的.而在进行服务质量抽查时，每一次质量抽检可看作一次有放回的抽样过程，每一次抽检的结果只有劣质服务有无两种情况.因此，抽样过程中出现劣质服务的概率可看作服从二项分布[10].

二项分布来源于伯努利独立重复试验.即在相同条件下，把一次试验重复进行(每次放回抽样).如果每次试验结果只有互斥的两种，随机变量的概率分布如式(2)，则称其服从二项分布.

式中：P为重复n次抽样出现d次劣质服务的概率；n为样本量；p为事件平均每次发生劣质服务的概率，见图1.

图1 二项分布概率密度

将二项分布应用到出租车质量抽检中，则事件发生次数di则为抽检到的劣质服务次数.需要注意的是，若一次服务过程中同时遇到多种恶劣服务行为，也只记为一次恶劣服务.抽样调查得出的次品率可以在一定概率下反映母体的真实次品率.抽样方案的接收概率P可以看作实际质量pi的函数.以横坐标表示不合格率pi，纵坐标表示接受概率P，可做P-pi曲线，这条曲线也称为操作特性曲线，即OC曲线.OC曲线的数学表达式如式(3)，即用二项分布的累计概率表示抽样中的接收概率.

在同样的抽样方案下，如果不合格率pi不同，则接收概率也不同，不合格率越高，接收概率越低，一般取相同的累计发生概率95%.图2为每批抽19个样本，次品数接受数为1时的OC曲线.在95%的接收概率下，其次品率为0.019，在10%的拒收概率下，其次品率为0.19.

图2 OC曲线

由图2可知，接受概率与不合格率呈严格的负相关.OC曲线反应了抽样方案对产品质量的辨识度.一个优秀的抽样方案，在不合格率相对较低的情况下，接收概率应该较高；而在不合格率提升到某一较高值时，产品的接收概率应该急剧下降.这样才能做到对高质量产品以大概率接收，对低质量产品以大概率拒收，使得拒收高质量产品或接收低质量产品的风险减到可承受范围.

在实际抽样过程中，在确定抽样方案前，应该对样本的次品率有一个初步的预估，根据可能的次品率和次品数确定抽样规模.即根据式(3)，确定次品率和次品数di，反推出需要抽取的样本数量ni.图3为在接收概率为95%(一般而言这个标准能较好地达到抽检效果)时，不同的次品率pi和次品数di下需要的样本数量.

图3 样本数、次品率与累计接受概率关系

由图3可知，在pi一定的情况下，di取值越大，最终的n也越大；di一定的情况下，pi取值越大，对应的ni越小.同样的，这里确定的样本量是满足特定抽样条件下的最小样本量，实际抽样时抽取的样本量必须大于或等于这个样本量.

1.3 综合考评样本量

基于公平原则采取的简单随机抽样方法确定的样本量和基于劣质服务考核确定的样本量都是最小要求样本量，综合考虑二者，应该将两种方法得到的样本量取较大值.

2 结果分析

2.1 综合服务质量考评的样本量

2018年武汉市客运出租汽车企业服务质量评估全年分三次调查.本文通过试算法确定最初的抽样比例，采用式(1)进行样本量试算，其中标准差σ取0.5，统计量取对应95%置信水平为1.69.

通过试算，全年共调查3次，每次抽样时根据企业车辆数不同采取不同的抽样比例，车辆数在800以上的企业抽样比例为5%，300～800辆的企业抽样比例为10%，200～300辆的企业抽样比例为12%，200辆以下的企业根据全年抽样误差确定抽样比例为15%～28%，最终绝大部分企业的全年相对误差控制在5%左右.初步抽样数见表1.

进行第一轮调查后，确定了各企业实际的标准差，按照调查取得的标准差修正方案，置信水平仍取95%，对应的统计量Z为1.96，相对误差可取2%，修正后的抽样情况如附表.

按照式(1)确定的样本量是理论上的样本量，某些情况下可能是不符合实际操作要求的.由于本调查是分季度的多轮长期调查，第一轮调查确定的样本量，其标准差σi取0.5是初步假设的，在经过第一轮调查后，我们通过对调查结果进行分析，是可以确定各个企业的实际标准差的，通过实际的标准差对初拟的调查样本量进行修正，得到切合各企业规模的简单随机抽样样本量.需要注意的是，这里确定的样本量是满足特定抽样条件下的最小样本量，实际抽样时抽取的样本量必须大于或等于这个样本量.

表1 武汉市出租车考评样本量(部分)

2.2 劣质服务质量确定样本量

在统一取生产方风险为5%，即P(≤d)=95%时，取一个恒定的不合格率p时，可以反推需要抽取的样本量n.经过实际抽样可以确定不合格率为2.3%，这里可取整令p=2%.由于样本量和不合格率p都不大，次品数d一般较小，在抽样中可视通过标准差修正得出的各企业抽样数的大小取d分别为0,1和2.不同企业的d的取值比较灵活，在本文中，d值是根据总体服务质量确定的样本量决定的，这遵循了服务质量风险越大取值越高的原则.本文将每次抽样数大于30的企业d值取2，每次抽样数小于10的企业d值取0，其余企业d值取1.这样只需在累计概率密度曲线上取P(≤d)=95%，便可得到各企业不同的样本量n.

2.3 综合确定样本量

前文用两种方法确定了不同的企业样本数，对二者取较大值，与企业规模相比可得各企业抽样比例，为保证多次抽样的可操作性，将抽样比例进行取整分段，最终分为5档.

3 结束语

本文立足武汉市客运出租汽车服务质量第三方评估课题，在实际调查中提出了一种针对不同规模出租车企业进行公平抽样的样本量确定方案.该方案将样本量确定需要考虑的因素归类为两种，一种是常规的多属性服务质量，另一种是对乘客影响更大的劣质服务.首先针对两种质量评定的要求分别提出不同的样本量确定方案，由于两种方案计算的都是需要满足的最小样本量，因而综合考量对二者取较大值.最后，考虑多次抽样的可操作性，根据企业规模反算出抽样比例并将反算出的抽样比例进行分段取整，最终确定了5档次抽样比例的样本量确定方法.

本方案针对异规模样本母体抽样难以保证公平的现实问题，提出了一种切实可行易操作的样本量确定方法.用基本均衡的抽样误差保证抽样的公平性，利用二项分布特性确保对劣质服务的高拒收概率，通过二者取较大值的方法保证对两者的综合考量.最终对抽样比例进行分类取整保证了多次抽样的可操作性.

值得注意的是，若将本方法推广到其他城市的出租车企业服务质量抽检中，可能存在规模差异更为极端的情况，主要问题是微型企业的车辆样本抽取在抽样过程中难度太大，这时候可以考虑将这些极微小的企业进行分类合并处理，多家企业共摊一个劣质服务概率，这在理论上是说得通的，毕竟这个概率本来就很小，可以近似认为它们是一致的.另外，在出租车市场中，还存在规模不小的个体出租车运营者，这些个体户不受制于某一个企业管理，若要将本文提出的方法用于这些个体户的服务质量抽检中时，可根据市长热线(或其他投诉途径)取得的投诉数据，根据各个个体受到的投诉类型进行分类，将这些个体户分成不同的群体，这也和小企业合并的思路是一致的.

综上，本文提出的方法不仅满足了本课题的研究需要，也对不同行业涉及到异规模抽样母体的相似问题均有借鉴意义，但在企业规模差异较为极端时的处理有所薄弱，留待今后进一步研究.