工程招标中的围标串标预警模型研究
2018-01-11程铁信刘文涛王朝阳王学海
程铁信, 刘文涛, 王朝阳,王学海
(1.天津工业大学管理学院,天津 300387; 2.天津市水务工程建设交易管理中心,天津 300204)
工程招标中的围标串标预警模型研究
程铁信1, 刘文涛1, 王朝阳2,王学海2
(1.天津工业大学管理学院,天津 300387; 2.天津市水务工程建设交易管理中心,天津 300204)
工程招投标中的围标串标具有复杂性、隐蔽性及欺骗性特点。模型针对工程投标文件中的结构化数据,采用灰色综合关联分析,计算不同商务投标书之间的相似度;依据投标文件中的非结构化数据,采用文本挖掘的方法,计算投标文件中技术方案等相似度,然后给出综合相似度;并据此判断投标人之间是否存在围标串标行为。工程实例分析表明,该模型既发挥了灰色综合关联分析在小样本数据分析中的优势,又利用了文本挖掘的方法分析投标文件非结构化数据的优势,可以更好地对围标串标行为做出事前判断。
招投标; 围标串标; 灰色综合关联分析; 文本挖掘
一、 工程招标投标的提出
招投标一直是国外学者较为热衷的研究领域,经历了多年的发展,研究的内容逐步深化,无论从理论方面还是应用方面对治理围标串标问题起到了积极的作用[1]。20世纪中期,招投标体制发展迅速,各界学者开始对招投标进行研究,Friedman使用运筹学方法分析招投标,在1956年Friedman将自己写的第一篇关于招投标的文章发表在《Operations Research》上[2],这篇文章引发了学者对招投标进行更深层次研究,并将数学工具运用在围标串标研究过程中。国际上主要从3个方面进行围标串标研究:一是研究具体招投标方式与其防范围标的效能,例如Robinson等人的相关研究结果显示,在传统的4个基本招投标制度中,相比于英国式招标方式,荷兰式招标与其密封第一价格的招标方式的预防能力更强[3];二是探讨和研究招投标中的招投标规则和程序,通过研究合理的招标程序,制定完整和科学的招标规范和科学流程,以预防围标串标情形的发生,例如Patrick以不对称投标人的第一价格密封拍卖招标采购模型为基础,通过一定的计算分析,将竞争和串通这两种不同情形进行对比,据此得出一种能够检测出虚假投标形成串通关系的方法[4];三是基于博弈论方法和机制设计理论进行研究,例如Kreps和Laffont通过博弈理论分析后发现,只要降低围标串标行为的预期收益就可以获得不围标的新的纳什均衡并可以通过增加违法成本和违法收益降低围标串标行为[5-6]。
我国引入招投标较晚,国内学者的研究主要集中在投标阶段的科学决策与理论应用。工程围标研究的发展大致可分为3个阶段:第一阶段,从具体案例和实践角度研究围标行为,分析历史案例中招投标参与者行为,制定预防围标的策略,例如郭军、贾艳艳、黄鹏等从招标人、招标代理人、投标人、评标专家分析招投标中存在围标串标行为的问题,针对这些问题提出取消报名环节、采用网络公开发布招标信息、改变资格审查和评标办法等[7-9];第二阶段,学者们主要对工程项目中的围标串标行为进行博弈分析[10],例如任宏、崔建祝、李倩等建立招投标参与者之间的博弈模型,通过求解博弈模型,揭露出潜藏围标串标联盟,并打破其共同利益,从而遏制围标串标行为发生[11-13];第三阶段,主要研究不同预防围标串标方法的操作性与实效性,例如景建萍、丁晓欣等从工程造价及资金管理入手,分析增加围标成本等因素对遏制围标串标行为的可操作性[14-15],再如郑丛旭、郭起宏等从立法及政府监管方面,对串通投标参与者加大法律处罚力度,有法律手段约束围标串标现象发生[16-17]。
二、 围标串标相似度分析预警模型构建
以投标文件中的结构化数据和非结构化数据为基础,采用定量分析与定性分析研究围标串标问题,借助灰色综合关联模型分析投标文件中的结构化数据,即对各投标人的工料机报价进行分析,计算灰色关联度;采取文本挖掘模型分析投标文件中的非结构化数据,对各投标人的技术标书进行分析,将非结构化数据转换成结构化数据,计算出各技术标书之间的相似度;然后,采用综合评价模型,将两者的结果综合起来,计算标书的综合相似度,得到更具科学性、全面性的结果,对围标串标做出判别。围标串标相似度分析预警模型见图1所示。
图1 围标串标相似度分析预警模型
1. 灰色综合关联分析
围标串标行为内部关联关系比较复杂隐蔽,其中某些关联数据难以获取,这符合灰色关联系统所要解决的问题特征,因此,借用灰色关联理论来分析和度量围标串标行为。近年来,学者们主要根据邓氏关联分析模型[18],深入研究并发展了多种灰色关联分析模型,并出现了众多改进模型,现有的部分灰色关联模型主要有灰色面积关联度、灰色综合关联度、灰色相对关联度、B型关联度、C型关联度、欧几里德关联度等[19]。以上的灰色关联模型都是基于因素间相似性或相近性构造的。
结合灰色关联理论的深入研究可知,建立灰色关联分析模型时需要综合考虑相似性和相近性两方面因素[20]。因此,基于序列间相似性和相近性因素构建灰色综合关联分析模型。任选一家投标人的详细报价数据构成系统主因素序列,即
Xi=[xi(1),xi(2),...,xi(n)]T
(1)
相应的其他投标人的详细报价数据构成系统相关因素序列为
Xj=[xj(1),xj(2),...,xj(n)]T
(2)
式中:i、j为投标人;n为投标人商务标书中的工料机报价数量;xi(k)∈R为i的第k个报价数据,记ri=r(X0,Xi)为相关因素序列Xj对系统主因素序列Xi的灰色综合关联度。
灰色综合关联模型的构建步骤如下。
第一步:计算序列x0与xi的相近性εij。对每个投标人的工料机报价数据序列建立相近性向量,令
sij(k)=xi(k)-xj(k),其中k=1,2,…,n,即
(3)
为序列Xi与Xj的相近性向量。
相近性向量Sij为n维列向量,n为序列的报价数据个数,通过两组原始报价数据序列之差可以算的相近性向量Sij。
计算相近性向量Sij的向量2范数,向量2范数指向量中的各元素平方之和再开根号。它描述了报价数据序列之间的相对差异,计算公式为
(4)
则报价数据相近性为
(5)
相近性ε0i只与Xi和Xj有关,描述了每个投标人工料机报价的相近程度,即每种材料价格之间的差价。
第二步:计算报价数据序列Xi和Xj的相似性δij。对报价数据序列利用总和标准化计算初像值
(6)
建立报价数据序列相似性向量,令
(7)
为报价数据序列间的相似性向量。
△xi表示报价数据折线上两点线段之间的斜率,描述了报价数据序列Xi和Xj各段折线的空间形态特征,△Sij体现了报价数据序列间的相似性。
同样,计算△Sij的向量2范数为
(8)
则报价数据序列相似性为
(9)
第三步:计算灰色综合关联度ri,即
(10)
则称ri为序列Xi与Xj的灰色综合关联度。
显然,综合序列Xi与Xj的相近性和相似性特性建立的灰色综合关联模型,能更客观全面地描述系统关联关系。
2. 文本挖掘
文本挖掘是数据挖掘中的一部分内容,但相对于其他结构化的数据而言,文本是自然语言表达的,它具有半结构甚至无结构的形式[21]。根据国内已有的文本挖掘模型,建立的文本挖掘模型包括文本集合的预处理、计算TF-IDF权重、建立权重空间向量、计算余弦值等步骤,详细过程见图2所示。
图2 文本挖掘流程
该文本挖掘模型是利用python语言进行编写,因为python语言具有可读性高、语法简单、免费开源、可移植性、可扩展、可嵌入、扩展库、编程思想大道至简等特点。模型主要涵盖了jieba分词、TF-IDF及基于空间向量的余弦算法三大模块。
(1) jieba分词。jieba分词是一种中文分词组件,主要有精确模式、全模式、搜索引擎模式三种分词模式,并且支持繁体分词和引入自定义词典。本模型使用精确模式,因为它能精确切分文本,得出适合文本分析的源数据。
(2) TF-IDF权重。计算TF-IDF权重,其中TF(词频)表示关键词出现的频率,即
(11)
式中:N为某个词在文章中出现的次数;M为文章的总词数。
IDF(逆文本频率)用来衡量关键词权重,即
(12)
式中:D为文章数量;Dw未出现的某关键词文章数量。
根据TF和IDF就可以计算出TF-IDF权重,即
TF-IDF=TF×IDF
(13)
TF-IDF权重表示某个关键词对文本的重要程度,可以通过提取TF-IDF值超过某一阈值的词得到分析文本的关键词集合。
(3) 空间向量的余弦算法。基于空间向量的余弦算法的原理是,首先把各文本简化表示为N维向量,并以关键词权重做其分量,再通过余弦算法计算两向量之间的夹角余弦值,用以描述两个技术标书的相关度大小。该算法首先要假设关键词间不相关,然后把文本内容转换成空间向量,简化处理不同文本中相同关键词之间的复杂关系,从而使文本具有可计算性。用D表示文本,T表示特征项,特征项指对其所在文档D的关键内容有代表性的基本语言单位(主要由词或短语构成),文本可以用特征项集表示为D(T1,T2,...,Tn),其中Tk是特征项,满足条件1≤k≤n。假设a、b、c、d为某文本的特征项,那么可将此文本表示为D(a,b,c,d),并将遵从这个特征项顺序,处理其它要与之比较的文本。对含有n个特征项的文本而言,通常会计算出每个特征项的TF-IDF权重,即D=D(a,w1;b,w2;c,w3;d,w4),简记为F=F(w1,w2,w3,w4),称F为文档D的权值向量表示,其中wi(1≤i≤n)为特征项的TF-IDF权重。则可将两篇文档的相似度Sim(Di,Dj)转化为两向量间的夹角余弦值表示,即
(14)
式中wik、wjk分别为第i篇和第j篇文档的第k个特征项的权值,1≤k≤n。
3. 综合评价分析
上述两种模型分别分析了投标书中产生的结构化数据和非结构化数据,从两个方面分析了标书相似度,但作为一个完整的标书,它既有结构化数据,又有非结构化数据,需要综合两种结果计算相似度,综合相似度的判定可以对围标串标问题进行合理全面的评价,于是得到
Sk=θri+(1-θ)Sim(Di+Dj)
(15)
式中:θ为ri和Sim(Di+Dj)的比重;k为第k个投标人,k=1,2,3,…。如果侧重商务标θ可取大一些,如果侧重技术标θ可以取小一些。根据不同招投标项目,聘请多为专家给θ取值,得出θ的平均值,计算综合相似度。
三、 实证分析
1. 数据来源
通过查阅天津市工程建设交易中心出版的《天津市建设工程交易统计年度表》,发现天津市某蔬菜基地建设项目被通报具有围标串标行为,并获得了该项目的投标书。该项目于2015年进行招投标,有A、B、C三家公司参与投标,评标方式为综合评估法,即结合每个公司的技术标和商务标两方面评估因素,从中选出最优者。针对该项目进行分析,处理的结构化数据是从商务标中梳理出三家公司主要的工料机价格,这三家公司的工料机价格采用国家统一要求,其部分价格数据见表1。非结构化数据来自对技术标书中文本的处理结果。
表1 工料机报价数据(部分) 单位:元
2. 算例结果
将表1中的数据导入构建的灰色综合关联模型中 计算各公司的灰色关联度。分别将A、B、C三家公司的工料机报价作为系统主因素序列,其余两家公司的设备报价作为系统相关因素序列,得出灰色关联度的结果(见表2)。
表2 灰色综合关联度计算结果
从2015年某蔬菜基地建设项目招投标中归纳、整理出技术标书,利用文本挖掘对技术标书进行处理,得出相应的相似度值。分别将A公司、B公司和C公司的技术标书两两进行相似度检测,经过程序的运算得出对应的相似度(见表3)。
表3 投标公司技术标书的相似度
根据式(13),并结合表2和表3的计算结果,计算出标书综合相似度,对于蔬菜基地建设项目,专家一致认为技术标的权重大于商务标的权重,得出的θ值为0.4,则算得综合相似度(见表4)。
表4 投标公司标书综合相似度
3. 结果分析
从表2中的灰色综合关联度结果可以看出,三家公司的工料机报价数据两两对比分析的灰色综合关联度都达到90%以上,表明这些报价之间有很强的关联性。因此,从工料机报价方面推断,该蔬菜基地建设项目可能存在围标串标的行为。
从表3中的文本相似度结果可以看出,对比分析三家公司技术标书内容相似度都在90%左右,表明它们之间的内容基本相似。这个结果表明这三家公司可能一起商讨过蔬菜基地建设项目施工的技术难点,并提出一套解决该技术难点的解决方案,在编制技术标书时,围绕解决方案进行技术标书的编写,就会导致技术标书内容存在很高的相似度,从技术标书也可以推断该项目可能存在围标串标行为。
从表4中的综合相似度结果可以看出,各投标公司的整个标书相似度都在90%以上,表明整个标书基本相似。该结果涵盖了蔬菜基地招投标中标书的结构化数据和非结构化数据,具有科学性、全面性,可以推断该招投标存在围标串标行为。
四、 结 语
将灰色综合关联模型和文本挖掘模型应用于标书相似度分析中,发挥了灰色综合关联分析在小样本数据分析中的优势,同时与文本挖掘模型结合而避免了灰色综合关联模型只分析结构化数据的单一性,充分利用了招投标中产生的结构化数据和非结构化数据,从两方面计算出标书的综合相似度,用于事前分析围标串标问题,对围标串标做出判断。由于围标串标行为的复杂性、隐蔽性等特点,在实际招投标过程中很难将其精准发现。应用本文所建围标串标分析模型,从投标书角度分析围标串标,对招投标行为进行事前分析,可在一定程度上规避围标串标问题的产生,维护招投标市场的秩序,从而保证招投标市场的快速健康发展。
[1] 李海燕,黄鹏玮.对我国招投标领域存在问题的思考[J].华北电力大学学报:社会科学版,2011(6):73-75.
[2] Friedman L. A competitive bidding strategy[J].OperationsResearch, 1956, 4(1): 104-112.
[3] 樊 群,殷 静,关华滨,等.基于大数据的围标串标行为识别关键技术研究[J].建筑市场与招标投标,2016(6):46-52.
[4] Patrick B. Comparing competition and collusion: A numerical approach[J].EconomicTheory, 2001,18(1): 187-205.
[5] Kreps D. Rational cooperation in finitely repeatedly prisoner dilemma [J].JournalofEconomicTheory, 1982 (27):245-252.
[6] Jean-Jacques, Laffont, David Martimort. Collusion under asymmetric information[J].Econometrical, 1997 (61):875-911.
[7] 郭 军,彭尚源.如何防控招投标活动中的串标围标行为[J].西南石油大学学报:社会科学版,2012(6): 32-35,88.
[8] 贾艳艳,杨 鹏.工程招投标阶段相关问题研究[J].洛阳理工学院学报:社会科学版,2013(5):51-55.
[9] 黄 鹏,刘 刚,黎 放.复杂相似标的招标模型分析研究[J].海军工程大学学报,2008(5):21-24.
[10] 冯芬芬.建设工基于博弈论的串标行为分析及对策探讨[J].遵义师范学院学报,2011,13(1):22-24.
[11] 任 宏,祝连波.工程投标中串标行为的信号博弈分析[J].土木工程学报,2007,40(7):99-110.
[12] 崔建祝.博弈论在围标串标治理中的应用[J].经济研究导刊,2012(28):210-212.
[13] 李 倩,张飞涟.政府监管对建筑市场“围标”行为的影响[J].中国林业科技大学学报,2008(5):127-131.
[14] 景建萍.工程造价管理中存在的问题及对策研究[J].工程技术研究,2017(1):181-190.
[15] 丁晓欣,贡 爽.关于建设单位对建设项目工程造价全过程控制的探究[J].长春工程学院学报:社会科学版,2016(3):33-36.
[16] 郑丛旭,高 幸.工程投标中串标问题的分析[J].建筑管理现代化,2009,23(3):229-231.
[17] 郭起宏,李双燕,万迪昉.基于隐性激励的公共部门组织合谋防范机制设计研究[J].财经理论与实践,2000(5):94-97.
[18] 刘思峰,蔡 华,杨英杰,等.灰色关联分析模型研究进展[J].系统工程理论与实践,2013(8):2041-2046.
[19] 董菲菲,罗贤运,吕保和.天然气管道内腐蚀影响因素的灰色综合关联度分析[J].安全与环境学报,2014(5):15-18.
[20] 张勇军,石 辉,翟伟芳,等.基于层次分析法-灰色综合关联及多灰色模型组合建模的线损率预测[J].电网技术,2011(6):71-76.
[21] Ghanem M. Chortaras A. Guo Y,et al. A grid infrastructure for mixed bioinformatics data and text mining[J].ComputerSystemsandApplications, 2005,34(1):116 -130.
EarlyWarningModelforTogether-ConspiredorColludedBiddingBehaviorBasedontheSimilarityofProjectsBiddingDocuments
Cheng Tiexin1, Liu Wentao1, Wang Chaoyang2, Wang Xuehai2
(1. College of Management, Tianjin Polytechnic University, Tianjin 300387, China;2. Tianjin Water Conservancy Transaction Management Center, Tianjin 300204, China)
Because of complexity, concealment and fraudulence in together-conspired and colluded bidding, the early warning model for together-conspired and colluded bidding based on the big data analysis on projects bidding documents was established, in which, for structured data in the bidding documents, the Grey comprehensive correlation analysis was applied to calculated the similarity between different commercial tenders, for unstructured data in the bidding documents, text mining was applied to calculate the similarity of technical schemes in the bidding documents, then, the comprehensive similarity was calculated according to which together-conspired bidding or colluded bidding behavior was judged. The empirical analysis of the bidding case demonstrated that the advantages of Grey comprehensive correlation analysis in the analysis of small sample data and text mining in analysis of unstructured data were fully taken, which could make early warning better for together-conspired and colluded bidding behavior.
bidding; together-conspired and colluded bidding; gray comprehensive correlation analysis; text mining
C931
A
1008-4339(2018)01-020-06
2017-05-05.
程铁信(1973— ),男,博士,教授.
程铁信,tiexincheng@vip.sina.com.