浅议水利工程质量监督数据文本分析
2021-01-07吴阳锋俞觃荣
吴阳锋,周 进,俞觃荣
(1.浙江省水利水电工程质量与安全管理中心,浙江 杭州 310012;2.诸暨市水利局,浙江 诸暨 311800)
1 问题的提出
从水利工程建设发展趋势看,水利工程具有项目投资大、工程建设环节复杂、参建单位多、质量要求高等特点[1],对水利工程建设监督管理提出较大挑战,也积累了大量监督数据。但目前积累的数据仅仅是独立的监管过程记录,数据自身存在的巨大价值并没有被挖掘出来。如何利用监督数据,提高水利工程监督能力,提升工程质量是当前重点研究的课题之一。基于此,探索研究信息化平台分析手段,通过文本挖掘与分类预测挖掘技术,自动发现水利监管数据潜在的模式和规律,智能预测当前水利工程质量安全状态。同时,所有结果将呈现可交互界面,帮助监管人员分析、挖掘水利监管数据潜在的模式和规律,并为其提供宝贵的意见或建议,实现质监高效化、工具智能化、管理创新化。
2 文本挖掘技术
针对监管数据进行文本挖掘和语义分析[2],构建文本挖掘模块。利用计算机技术从非结构化的文本数据中提取新的知识和模式,对非结构化的文本数据进行数据挖掘。根据水利工程监督检查记录中包含的责任主体、存在问题、事实描述、记录人员等文本数据,通过文本挖掘技术建立问题分析模型,结合开工日期、投资金额等其他数据对存在的问题进行自动分类。
根据文本挖掘和语义分析构建一个文本挖掘与分类预测和一个分类器,利用分类器对未知类别的测试文本集进行分类,即根据已有含文本的水利监管数据,智能预测某水利工程可能存在的技术问题。
3 基于文本挖掘技术的水利质量监督数据结果分析
3.1 数据来源和分析方式
分析数据为收集的水利工程质量监督数据。图1为水利工程质量监督文本挖掘分析框图,以文本挖掘技术对大量非结构化文本数据进行转化、表示和分析,从大规模水利质量监督数据挖掘出潜在规律,以帮助水利质监人员开展和部署安全防范工作。
图1 水利工程质量监督文本挖掘分析框图
3.2 文本分词技术
水利监管数据包含专业质监人员对水利工程的描述情况,其中文本内容可通过分词操作划分成一个独立的词语,用于构建候选词向量。采用中科院的“ICTCLAS”分词器对文本进行预处理,例如,在事实描述中的一条记录:“对施工现场安全生产监督不到位”,系统先通过词性判断需要过滤的词语并进行词性标注,经过分词处理后拆分成“对”“施工”“现场”“安全”“生产”“监督”“不”“到位”等信息。显然,中文分词器性能对文本分类的最终结果有很大影响,因为文本分类特征选择的操作对象是基于分词处理后的词信息,而不再关联原始文本信息。
3.3 文本表示技术
系统采用性能较优的向量空间模型(VSM)[3]进行文本表示。VSM是指把对文本内容的处理简化为向量空间中的向量运算,并且以空间上的相似度表达语义的相似度。当文档被表示为文档空间的向量,可以通过计算向量之间的相似性来度量文档间的相似性。文本处理中最常用的相似性度量方式是余弦距离[4]。例如,给定一条文本Document = D(t1,t2,…,tn),D中各个特征项tk互异(即没有重复),且各个特征项tk无先后顺序关系(即参考文档的内部结构)。因此,向量空间模型由n个特征项组成一个n维坐标系,权重w1,w2,…,wn为相应的坐标值(特征值)。由若干条数据经过向量空间转化得到三维坐标系中的点,该点表示某一个特征词在相应问题类别下的特征值。向量空间模型见图2。
图2 向量空间模型图
3.4 文本特征提取技术
文本特征的选取采用开方测试(CHI)[5]作为特征选取的方法。开方检验最基本的思想是通过观察实际值与理论值的偏差来确定理论正确与否。先假设2个变量独立(行话就叫做“原假设”),然后观察实际值(也可以叫做观察值)与理论值(这个理论值是指“如果两者确实独立”的情况下应该有的值)的偏差程度。如果偏差足够小,认为误差是很自然的样本误差,是测量手段不够精确导致或者偶然发生,两者确实是独立的,则接受原假设;如果偏差大到一定程度,使得误差不太可能是偶然产生或者测量不精确所致,认为两者实际相关,即否定原假设,而接受备择假设。在分析中,用CHI衡量特征项tk和类别Cj之间的关联程度,特征对于某类的CHI统计值越高,则认为该特征项对该类的类别表征程度越强,反之越弱。
3.5 文本特征权重计算
通过开方测试,系统可以获取一条文本的所有特征词,即可获得向量空间模型中向量的每一个分量。文本向量化还需要给每一个分量赋予权重,该权重代表该分量的重要程度。采用TF-IDF方法,即“词频-逆文本频率”,由2部分组成,TF和IDF。TF指词频,之前做的向量化就是对文本中各个词的出现频率进行统计,并作为文本特征。IDF即“逆文本频率”,表示一个词在所有文本中出现的频率。如果一个词在很多文本中出现,那么IDF值应该低,如水利工程中的“锚杆”;如果一个词在比较少的文本中出现,IDF值应该高,如一些专业的名词“混凝土”“安全帽”等;极端情况下,如果一个词在所有的文本中都出现,那么IDF值应为0。综上,TF-IDF的思想为:如果词条t的文档频数越少,则TF-IDF越大,越能说明t有很好的类别区分性。如果一个特征大量出现在一类文档中,且频数很大,则TF-IDF值会变小,说明这个特征不具有较好的代表性。但是如果一个特征大量出现在一个类别中,正好说明这个特征反映这个类别。基于所选特征值和TF-IDF方法,可计算关于“事实描述”和“存在问题”的权重矩阵。每一个特征词配以相应的字典序号,每一条事实描述经过特征词筛选后,得到的特征词添加于特征字典中。将这些特征词映射到相应的问题类别中,可以计算得到每一个特征词所对应问题类别的特征权重。例如:特征词“危险源”“未落实重大危险源管理”等问题,经分析特征权重均大,说明它们在所有事实描述中可能频繁地出现。
3.6 实际应用案例及场景分析
以实际质量监督管理数据为例验证所采用方法的分析效果。在31 150条质量监督管理数据中,通过文本挖掘技术将此类非结构化的文本数据转化为结构化的数据,并借助文本挖掘技术对所有的质量监督数据进行统计分析,从中挖掘出可能存在的规律和问题。
首先对所有短文本进行分词操作,得到分词结果,再进一步对所有文本进行特征值、特征权重的提取和计算,最后按照质量类和安全类对所有的质量监督检查意见数据进行分析,以词云图的形式展现。图3为所有安全类水利工程质量监督数据词云分析结果图。
从图3中可以看出“验收”“检测”“检查”“评定”等词的频率较高。通过返回查看相应的检查意见可以得出,在质量监督检查过程中,“工程验收鉴定书不规范”“未及时组织套井回填重要隐蔽单元工程验收”“评定工作不及时”“评定表不合格”等问题频繁出现。该分析结果提示相关的质量监督检查人员在评定工作资料、单元工程验收时必须注意的问题。同时,分析结果也给相关人员制定规章制度提供参考。此外,从图3中也可以看出“原材料”一词出现的频率较高,从原始数据中分析得到,钢筋、块石、砌石等原材料问题非常显著。该结果建议相关管理人员需要在此类问题上制定相关措施,以降低相关问题的出现频率。同时,从原始数据中可以发现原材料送检问题也十分突出。在较多工程中出现原材料常未送检的问题,进而影响工程质量。
实际监督检查数据日常质量安全问题人工统计,也存在“验收”“检测”“安全”“评定”“不及时”“未验收”等问题,与大数据文本分析结果存在一定程度上一致性。大数据质量安全分析结果与实际情况比对,经查验,分析结果中占比大的质量安全问题在工程中实际存在,具有较大的准确性、吻合性,对质量安全管理提供参考依据。
图3 安全类水利工程监督数据词云分析结果图
4 结 语
本文采用文本挖掘技术可多层析、多角度、多维度分析挖掘相关水利质量监督数据,分析监督数据的特征和权重,以及各类型水利工程在施工过程中可能存在的规律和问题。经对比,很多挖掘成果与实际工程建设过程中存在的问题较为吻合,科学研判水利工程质量监管的现状趋势,准确挖掘发现潜在的模式和规律,针对数据分析结论提出针对性指导意义的建议,为今后水利工程质量管理提供基础性理论依据,可大大提升水利工程质量管理水平。