企业招标知识库及其建设阶段探讨
2014-07-16郑兴远
郑兴远
(中国石油天然气集团公司招标中心 北京 100724)
随着现代企业对成本控制重视程度的提高,物资采购越来越严格、规范,“招标”这一目前高效、阳光、可操作性强的现代化采购方式被广泛采用。根据企业发展和生产建设的实际需要,中国石油天然气集团公司于2012年专门成立了“中国石油招标中心”,组织管理和从事招标方面的工作。目前,集团公司从事招标管理和招标业务的人员总计7000多人,其中50%为兼职。兼职人员既不可能在短时间内成为专家,也因频繁的工作流动不具备成为专家的动力和条件。如何提高从业人员的专业水平是目前面临的一个非常实际的问题。
为满足招标工作急需,提高招标人员业务水平,企业普遍采取专门培训的办法,但是传统的集中式、讲座式培训并不能完全适应当前招标队伍的人员构成及实际需求。从培训内容来看,由于各个案例的特殊性,准备再充分的老师也无法在几次培训中展示所有可能遇到的情况,不能预测到实际工作中所有可能遇到的问题;从受训对象来看,填鸭式的机械学习方式对学员、特别是中年学员不适宜,还有可能因为所学的内容并非是实际中急需掌握的而使其对培训内容不敏感、无兴趣。鉴于这种情况,就需要一个不受场地和时间限制,可随时随地提供指导,内容几乎涵盖所有可能遇到的问题,且针对性强、答案准确的“老师”——招标知识库。这位“老师”提供的不再是生硬的、由法律明文规定假设遇到的特定事件处理方式的教学方案,而是针对实际遇见事件的合乎法规的解决方法。换句话说,需要的是能够提供“精确制导”式的具体解决方案的一个知识库,让即使是非专业招标人士也可以在其指导下规范、出色地完成招标任务。
1 知识库及招标知识库的分类及核心
知识库是知识工程中结构化、易操作、易利用、全面有组织的知识集群,是针对某一(或某些)领域问题求解的需要,采用某种(或若干)知识表示方式在计算机存储器中存储、组织、管理和使用的互相联系的知识片集合。这些知识片包括与领域相关的理论知识、事实数据,以及由专家经验得到的启发式知识,如某领域内有关的定义、定理和运算法则及常识性知识等[1]。
1.1 招标知识库分类
招标知识库,其知识构成可以分为事实知识、规则知识和策略知识:
(1)将已有的法律、法规、条例、文件、案例等集中统一保存,并为使用者提供方便、快捷、权威的检索服务,称为“事实知识”。
(2)提供具体事例在相关法律、法规、条例、文件规定下的操作方法,即各相关法律、法规、条例、文件规定在实际工作中的应用,称为“规则知识”。
(3)相比规则知识,策略知识不再是仅仅说明具体事件的一种标准解决方式,因为现实的事件可能在合法合规的前提下,也符合多种操作执行方式,这时企业需要的是能使利益最大化的规范操作方式。
其中,对于事实知识的检索,知识库只是起到一个规范检索口径、提高检索效率的作用,不能较好地体现出它相比于传统百科全书的方案解决优势;而对于高效地解决实际工作问题,就需要通过对规则知识和策略知识的检索来实现。
1.2 招标知识库核心
对于事实知识的建设,只需收集齐全,并提供快速精准的检索即可。这是工作中必须使用的,是建库的基础,但所能提供的知识不具有不可替代性。
招标知识库的核心是建设规则和策略方面的检索系统。在日常工作中,人们解决一些遇到的问题的方法往往是“师傅带徒弟”式的言传身教,许多常见问题在不同的时间、地点和事件中反复出现,由于地理分隔、生活习惯、工作经验、知识水平等原因,对于一些人来说非常简单的问题,对于另一些人来说却无法解决。而知识库检索正是提供一个交流和保存的平台,将大家遇到的问题及解决方法保存下来,使以后遇到相同或相似问题的人可以通过对知识库的检索找到解决方法。
2 成功知识库建设案例
知识库的建设思维在我国从古至今一直存在,现仅举两例说明。
2.1 《论语》中蕴含的“知识库”思维
知识库的建设思维在我国古已有之,其中最具有“知识库”建设思维的非《论语》莫属。众所周知,《论语》是记录孔子及其弟子言行的文集,通过问答的形式,阐述、概括了包罗万象的社会问题,为后人提供了丰富的知识源泉,具有极强的概括性。它通过众人的眼睛来观察世界,发现问题,用提问的方式来尽可能地扩大收集需要解决问题的范围——知识库思维雏形。
可见,即便是孔子这样的大智大贤者,其思想的形成也离不开丰富的问题来源。有了问题,才能再针对这些问题进行思考和解答。
2.2 百度“知道”的“知识库”思维
目前,国内较为成功的知识库系统是百度公司的“知道”功能,其成功之处在于:开放的问题收集平台,并拥有大量的提问人群,因而能拥有海量的覆盖各个方面的待解决问题;开放的回答解决问题平台,动用最广大的智慧来源解决问题,使问题能够相对高效准确地被解决;基于以上两点,使用者不用提问等待解决方案,即能通过前人的问答过程记录解决自己的问题;高效的人工智能搜索系统,能准确地将同类相似问题答案提供给使用者,且高效的联想和猜想功能在使用者对提问本身不清晰时辅助使用者明白自己到底想查的是什么;拥有庞大的使用人群,这是实现以上四点的前提和基础。
通过以上这两个例子可以看出,基于知识库的建设目的是帮助解决问题,解决问题的方法是检索和借鉴被保存记录的以往遇到的相同或相似问题的成功解决方法,即知识库中的知识。知识库的建设,就是处理好这些知识的3个部分:知识收集、知识储存、知识检索。其中,“收集”要求尽可能全面的覆盖问题,且时时更新编辑;“储存”要求后台分类合理,形成关联知识片,利于检索;“检索”需要手段方便,终端易获得,操作简单,且有高效的人工智能辅助。
3 招标知识库建设的基本思路和阶段规划
知识库是一个庞大而复杂的系统,其内涵包括:信息采集与存储、知识提取、内容检索、结果呈现。建设好如此庞杂的系统,不啻于乾隆皇帝编撰《四库全书》,建设难度可想而知,绝不是简单的依靠搭建企业级数据库、java开发前端页面就能实现的。如果把知识库当做一个企业级系统进行开发,注定要承担极大风险,甚至失败。
知识库需要整合或重新开发的模块见图1。
图1 知识库需要整合或重新开发的模块说明
基于人力、物力条件所限,知识库建设可分阶段进行。在目前条件下我们还只能实现知识库概念阶段。
(1)收集及挖掘。事实知识类涵盖国家及部委法律或规定、集团公司各项招标有关规定等文件,按集团12个模板分类的代表性案例、招标标准流程图及每步的标准执行方法。规则和策略类包括招标中心员工遇到的问题及最后的成功解决方案记录。
(2)信息储存。利用现有服务器及局域网,将所有资料通过分类存储在服务器硬盘中。
(3)检索及界面展现。各员工通过局域网登入服务器硬盘检索所需信息。
通过以上工作,在概念上实现知识库模式,但因条件所限还无法体现知识库的优势。根据资金紧张的实际情况,建议集团公司招标知识库的建设采用深度优先的开发方式,这种低成本、高效率的方式对项目的实施将会较为有利。
为此,从工程和财务的角度将系统的开发分为如下几个阶段。
3.1 初级知识库阶段
初级知识库阶段,需要以最低的经济成本和时间成本建设最初级的能形成使用闭环的系统,使知识能以高质量的信息形式得以收集、存储、检索。
(1)收集:仅需支持用户手动进行知识的录入,例如最常见的法律法规、招投标案例、实际问题及解决方法等;知识挖掘部分采用静态知识目录,而不必花费巨大的时间成本实现智能挖掘系统;但由于使用人群的扩大,将涉及更多的问题,需要将本公司各员工遇到的问题及最后的成功解决方案记录保存。最终知识库内容将涵盖全公司涉及的招标问题,并设立统一解答口径,有专人定期实时解答问题。
(2)存储:采用最便宜且具强大扩展能力的MYSQL,将所提及问题整理后按分类建立数据库统一保存。
(3)检索:采用成熟的前端展示Browser应用展现信息,提供录入界面。可提供电子化搜索引擎式的检索,实现分词功能,提供检索知识的服务,搭建初级的招投标知识搜索引擎(表1)。
表1 初级知识库阶段各模块功能规划说明
实现以上功能,估计成本投入在30万元人民币左右,在外观上基本实现知识库模式。但由于使用人数有限,收集规模效应无法发挥,且成本投入有限,在保存方面无法建立先进的数据库模式,检索无法智能匹配,只能做到关联匹配式的非人工智能检索。由于总信息量不大,能初步满足当前信息量的需要。
3.2 知识库阶段
在第一阶段的基础上,对系统进行升级,对初级知识库阶段中的5个模块进行较为明显的改进,尤其是实现云存储和爬虫技术,将获取信息的触角延伸到互联网。
(1)收集:由于使用人群的进一步扩大,会涉及更多的问题,将集团各公司每个招标工作员工遇到的问题及最后的成功解决方案记录保存,最终知识库内容将涵盖全集团涉及的招标问题。由于问题面广量大,可以开放解答权限,设立统一确定口径,有专人定期时时审阅各类问题和解决方法,将最准确的答案确定发布。同时信息收集的重大改进是使用C++语言开发性能强劲的网页爬虫,从互联网获取海量信息,并将信息存储在云存储系统中。知识挖掘部分,对静态知识目录进行升级,支持在某些知识条目下增加对外部信息的交叉引用链接。
(2)保存:将所提及的问题整理后按分类建立数据库,统一保存。由于数据量增大,对数据库算法及分类方法提出考验和要求。存储系统向云存储系统升级,从技术上来说,可选择MYSQL Cluster或Redis、HBASE等产品升级空间无限的开源产品。
表2 知识库阶段各模块功能规划说明
(3)检索:建立专业的提问及检索系统,员工在网络覆盖的地方,使用包括电脑、手机、IPAD等各类终端都可以登录知识库提问检索,可提供人工智能的电子化搜索引擎式的检索。搜索系统升级为支持爬虫抓取的外部数据的检索,从而改善针对关键词匹配知识条目的准确性。界面展现上需要针对前一版本用户使用体验进行改进(表2)。
实现以上功能就达到了知识库模式,估计成本投入为150万元人民币左右。由于知识库的核心是知识覆盖面,所以必须保证有大量的用户数,收集规模效应才能发挥,才真正具有检索价值。同时,由于总信息量的提高,保存数据库的合理建立和算法也变得更为重要,这将最终影响检索的效率。通过数据库的合理保存和人工智能的算法检索,使用者能够获得准确的所需信息,既不会错过有用信息,也不会关联出的信息量过大且多为无效信息。失去检索效率,知识库便失去使用价值。
3.3 先进的知识库阶段
本阶段知识库可将全社会从事招标工作的人员纳入使用人群。对于知识库的使用原理此阶段已经完全实现,在无需考虑用户数量不足的情况下,知识库的建设重点就转变为纯技术方面的数据库保存和检索算法问题上。云存储系统线上运行一段时间之后必然会产生性能调优的需求,在本阶段可以将前一阶段的数据量等重要信息作为依据进行调优。爬虫的爬取针对性和爬取效率经过前一阶段的实际运行也有机会得到较大的提升。在前一阶段积累的海量数据基础上,采用神经网络等机器学习技术实现知识挖掘系统,最终使用“知识图谱”替代人工编撰的知识目录作为组织知识的主要形式。检索系统和界面展现系统均根据前一阶段的使用情况进行改进。
要达到目前世界上最先进的保存和算法水平,投入成本将达500万元以上。达到此规模的知识库,完全有能力通过增加模块的方式增加集团公司内部任何行业的知识库,例如钻井、采油、炼化等(表3)。
表3 先进的知识库阶段各模块功能规划说明
4 结论
总的来说,一个知识库的核心是收集尽可能全面的覆盖问题,且时时更新编辑解答;在实际工作中可能遇到的问题不是通过设想就可以预见全面的,目前唯一可行的方法是通过大量的使用人群来发现问题,用集体智慧来解决问题,形成知识库供其他人参考借鉴。至于保存和检索方法,都是实现这个目标的纯技术手段,基本是通过资金投入来解决的。集团公司建设知识库要从实用出发,从初级做起,首先解决兼职招标人员应急培训的燃眉之急,然后与培训业务相匹配,逐步升级,最终建设成一个较为先进的知识库。
[1]林婷.基于ArcGIS的地图输出智能化技术研究[D].杭州:浙江大学,2006.