基于贝叶斯文本分类的高校设备批量集中采购
2014-05-02陈立
陈 立
(1.浙江工商大学 实验室与设备管理处,浙江 杭州 310018;2.浙江大学 计算机与科学学院,浙江 杭州 310058)
1 高校仪器设备批量集中采购中存在的问题
所谓批量集中采购,是对一些通用性强、技术规格统一、便于归集的政府采购品目,由采购人按规定标准归集采购需求后,交由集中采购机构统一组织采购的一种采购模式。
目前高校仪器设备批量集中采购的过程是:主管采购的政府部门按照“满足基本办公需要”、“市场成熟度高”和“竞争性充分”的原则,先制定采购目录,如台式计算机,其采购目录就有10款基本配置机型;然后各行政事业单位基于上述采购目录,通过网上报送采购计划;在规定的报送时间截止后,采购部门再对申请单位的采购需求进行汇总整理、分类打包,编制具体采购需求,进而进行采购[1]。
批量集中采购试点工作近年来得到财政部的大力推进。它不仅较好地解决了传统的协议采购方式中品目协议价格高于市场价、采购人在协议供货中任意选择高配置机型、采购人员对供货商选择有明显倾向性等问题,更为重要的是,它能带来显著的规模效益[2]。与分散采购相比,批量集中采购更符合市场竞争规则。批量越大,吸引的供应商就越多;而参与竞争的供应商越多,竞争就越充分,采购方所获得的价格优势、质量优势及得到的配套服务自然会显著提升。所以,批量集中采购带来的是采购成本、人力成本、监督成本的下降,是商品质量和服务质量的提升,从而使得财政资金得到最大化节约[3-4]。
但同时,批量集中采购的推行也面临一些难题。例如对于行政管理部门而言,其设备“满足基本办公需要”即可;而对于高校某些研究部门而言,所需采购的设备专用性较强、技术规格也很难统一,所以无法出现在政府主管部门制定的采购目录中,只能分散自行采购,因而不能得到批量集中采购的优势[5]。实践中,“政府采购目录”尚未涵盖的设备需求总量还是很大的,如果这些设备也能实现批量集中采购,将会大大拓展批量集中采购的适用范围。
2 基于贝叶斯文本分类的批量集中采购
2.1 设计思路
鉴于某些大的生产商或代理商能够生产或代理多种类设备,高校在分散采购中常常将不同型号及种类的设备组合起来进行招标。按照这种思路,只要某些设备的组合满足招标条件并曾经招标成功,就可以尝试将这种组合形成一个“类”,由政府主管部门将各高校待采购的设备按照这种组合进行分类汇总,一旦形成规模时即可进行公开招标。利用贝叶斯算法及机器分类,通过计算机及网络,就可以实现上述跨部门、跨地区的设备分类汇总。由此,批量集中采购在摆脱了采购目录中品目分类限制的情况下得以实施。
贝叶斯分类器分为两部分:一个是训练部分,包括对满足招标条件且成功招标过的设备文本的收集和预处理,以及分类器的构建,其中须对文本进行中文分词、文本特征向量的提取;另一个是分类部分,包括对高校待采购设备文本的收集和预处理及分类和输出,同样也必须对其进行中文分词、文本特征向量的提取。
使用已经获取的训练模型来对设备文本进行分类,将待采购的设备与训练集中的类进行匹配,通过计算申购设备属于哪一类的概率,将其归为概率最大的一类,从而用机器分类的方法实现分类汇总,进而公开招标(见图1)。
图1 设备分类流程图
2.2 设备文本表示和特征提取
2.2.1 设备模型
采用向量空间模型[6](vector space model,VSM)作为设备文本的表示模型。该模型的基本思想是用特征词条来表示文本的语义,把文本表示为以词为单位的项,项代表向量空间中的维度,每个文本被表示成一个n维向量,权重代表维度的大小,即设备文本Di可以表示为:
式中:wij表示第j个特征项tj在设备文本Di中出现的频度(权重),n为向量空间的维数。可以看出,wij的值越大,表示tj越能反映设备Di所属类别;反之,该值越小,表示tj越不能反映设备Di所属类别。
2.2.2 设备文本分词
由于贝叶斯文本分类算法是以单词为粒度,所以在特征提取前,必须对需参与分类的文本作分词处理。在分词前要对设备文本做预处理,根据经验,只保留最能说明设备属性的名词及英文字母。分词过程则是采用开源的ICTCLAS汉语分词系统,它是基于多层隐式马尔科夫链模型的汉语词法分析系统[7],该系统的主要功能有中文分词、词性标注、新词识别等,分词精度为98.45%。
2.2.3 设备文本特征词条的提取
设备文本内容由大量的词组成,大部分词对分类的影响很小,但若把所有词都作为特征词条,会使向量的维数很大,计算机处理速度变慢。因此,在表示设备内容时要选择有典型意义的词作为特征词条,以减少向量的维数。常用的降维方法是进行特征提取[8]。
常用特征选取方法有信息增益(IG)、互信息(MI)、文档频度(DF)、类别区分词[9]等,本文采用类别区分词方法。类别区分词方法能够从局部意义上考虑特征词条对单个类别的区分能力。全局意义上的词可能存在多类的表示意义,但有些词的单类类别表示意义很明显,比如“交换机”、“色谱仪”、“移液器”等,它们只会出现在某一设备文本之中,这些词称之为类别区分词。类别区分词的选取有两种方式:一种与词条的类间离散度[10]有关,另一种与类内分散度有关。类间离散度用来描述特征词条在类间的分布情况。本文采用类间离散度来对设备文本的单词进行特征提取,特征词条的类间离散度为:
2.2.4 特征词条权重的表示方法
特征词条选取后就可以使用模型来表示设备文本。但表示设备文本之前,要先计算每个特征词条的权重,根据特征词条在设备文本中的重要程度来给予特征词条不同的权重。特征词条权重的表示方法主要有联合权重(TF-IDF)、布尔权重、特征词条频度等,本文选择特征词条频度作为权重的表示方法。
2.3 朴素贝叶斯文本分类器
贝叶斯方法[11]是基于概率的一种算法,朴素贝叶斯方法是贝叶斯方法中最简单的形式,其原理是通过计算文本dx属于某个类别Cj的概率P(Cj/dx),把文本dx分类到概率最大的类别中。
式中:P(Cj)是类的先验概率;P(dx/Cj)是类条件概率。设dx表示为特征词条集合(t1,t2,…,tn),n为特征词条个数,假设特征词条之间相互独立,则P(dx/Cj)、P(dx)的计算方法为:
本文中,笔者将每种类别的所有设备汇总到一个文本中,所以P(Cj)在这里不用计算,公式可以简化为:
3 实验结果与分析
3.1 实验数据介绍
训练部分数据是本校及其他兄弟院校采购完成的50份招标文件,用人工的方式找出符合要求的招标标项,并且按标项将其中的设备文本一一提取出来,每个标项作为一类,这样总共从50份招标文件中汇总出10个类别的训练文本,包含设备数157台套。
分类部分数据是在本校申购系统准备采购的项目中提取的9个项目,其中包含7个财政专项以及2个常规项目。这些申购项目包括计算机、环境、食品、艺术等专业申购的设备160台套,从中挑选出用于测试的设备132台套,设备价值共计387万元。因为有些设备是指定品牌或是属于非标设备,无法用于招标采购,所以将其剔除掉。
3.2 评价标准
本文使用文本分类的评价指标——准确率和查全率来对设备分类进行评估,以评价实验结果。准确率和查全率可用公式表示如下:
准确率=(机器分类结果的设备与人工分类结果的设备相一致的设备数)/(机器分类结果的设备数);
查全率=(人工分类结果的设备与机器分类结果的设备相一致的设备数)/(人工分类结果的设备数)。
综合考虑准确率和查全率的共同影响,采用另一种常见的评价指标F-Score[12],即F-Score=准确率×查全率×2/(准确率+查全率)。
首先将使用部门申报的待采购设备用人工方式分类。为了使人工分类的结果更准确,将分类结果汇总,并做成标书后用邮件的方式询问3家以上有实力的供应商,征求其对分类结果的意见。因为分类结果会直接影响到招投标结果,所以几乎所有供应商都认真、详尽地给出了答案。另外,也通过邮件征询了用户对人工分类合理性的意见,也收到很多的意见反馈。最后综合用户和供应商的意见,对分类的结果做进一步的调整,这为后续的比较提供了准确的依据。
3.3 实验结果与分析
分类的结果如表1所示。F-Score的平均值达到70%以上,分类器分类结果对比人工分类正确数共计72台套设备,设备的预算价值接近300万元,这个结果是比较令人满意的。就笔者所在的学校来说,用这种方式的话,一年可以有价值2 000~3 000万元的原本分散采购的设备进入到批量集中采购。
对于F-Score比较低的类,通过对比人工分类的结果,发现主要是由于待分类设备文本对设备的描述不够清晰、明确导致。还有一些设备是因为本身自带了另一类的设备(如有些色谱仪本身自带了台式计算机),导致机器分类的错误,也降低了分类效率。
4 结束语
通过实验可以看到,改进的贝叶斯分类器在设备分类时取得了较好的效果。采用这种办法可以有效扩大批量集中采购的适用范围,将原本不适用于集中采购的设备也部分纳入批量集中采购中来。运用计算机处理不仅加快了采购速度,而且也体现出批量集中采购的优势。不过,机器分类毕竟有其局限性,在实际运用中还应该围绕机器分类制定相关的制度,以确保最终分类的准确性。此外,本文的结论只是在实验状态下得出的,在采购实践际中,设备的种类千变万化,因此还需建立一套反馈机制,以提高机器分类效率,满足不断变化的采购需求。
表1 分类器分类评价
(
)
[1]李丽辉,王保安.政府批量集中采购将向全国推广[N].人民日报,2011-10-24(003).
[2]中华人民共和国财政部.政府采购货物和服务招标投标管理办法[J].中国政府采购,2004(9):7-15.
[3]钟永泉,赵邦枝.高校集中采购内部控制制度的构建与探索[J].实验技术与管理,2009,26(12):146-148.
[4]张彦志,向青春.高校规避政府集中采购的问题及对策[J].实验技术与管理,2009,26(8):172-175.
[5]邓文,龚福忠,覃戟,等.政府采购制度下地方高校仪器设备采购的问题及对策[J].实验技术与管理,2012,29(11):4-7.
[6]邢军,韩敏.基于两层向量空间模型和模糊FCA本体学习方法[J].计算机研究与发展,2009,46(3):443-451.
[7]陈功平,沈明玉,王红,等.基于内容的短信分类技术[J].华东理工大学学报:自然科学版,2011,37(6):770-774.
[8]黄秀丽,王蔚.一种改进的文本分类特征选择方法[J].计算机工程与应用,2009,45(36):129-130.
[9]周奇年,张振浩,徐登彩.用于中文文本分类的基于类别区分词的特征选择方法[J].计算机应用与软件,2013,30(3):193-195.
[10]熊忠阳,黎刚,陈小莉,等.文本分类中词语权重计算方法的改进与应用[J].计算机工程与应用,2008,44(5):187-189.
[11]Ian H.Witten,Eibe Frank.数据挖掘:实用机器学习技术[M].董琳,邱泉,于晓峰,等译.北京:机械工业出版社,2006.
[12]Sebastiani F.Machine learning in automated text categoriza-tion[J].ACM Computing Surveys,2002,34(1):1-47.