关于物料数据治理推进核电厂库存挖掘的分析

2021-12-27陈苒君

科学与信息化 2021年12期

陈苒君

中核核电运行管理有限公司浙江嘉兴 314300

引言

“库存是一把双刃剑”，从保证机组安全稳定运行考虑，倾向于尽量齐全并尽可能多地储备库存物资；而从控制成本考虑，则倾向于在保障核电厂安全的基础上保有较低的库存量，因为过高的库存量将会占用大量存货资金，并占用大量库容，同时还将增加仓储维护管理成本。综上，库存管理需要平衡核电厂安全与成本控制。在大数据挖掘技术成熟以前，库存控制多以预算控制、指标考核及职责梳理等管理手段为主，但始终难以挖掘库存增长的根本原因，无法对症下药，导致库存控制效果不佳。目前各类数据分析手段日渐成熟，数据分析技术也越加先进[1]，在软硬件方面都已经具备了运用大数据分析的前提，故库存控制也转向大数据分析，以谋求突破。

1 重码数据分析，提升物料主数据质量

1.1 物料数据现状分析

由于秦山核电的物料主数据管理模式与管理标准经过多次的调整，其数据质量存在一定的问题，尤其是存在大量重复编码的情况，造成重复采购、错误采购的问题。随着库存控制专项的持续开展，物料主数据作为供应链领域的基础数据之一，在专项工作中发挥了越来越大的影响力，低质量的数据基础逐渐成为阻碍工作顺利推进的制约因素。本文通过探索数据治理的方法论，设计了一套完整的数据质量校验规则与方法，找出了一条可靠的，同时也富有成效的数据质量提升途径。

1.2 重码分析方法及实现

本文运用文本语义分析技术[2]，根据物料条目的各种辅助信息，实现重码分析，提高重码分析准确率和分析效率的同时，减少专业技术人员在重码分析识别的投入。

第一步：数据ETL

中国核电目前采用SAP HANA作为大数据平台，核电各系统数据统一进入数据仓库，各数据分析应用程序全部由数据仓库取数。为满足重码分析需求，将物料主数据同步到HANA后按照相应规则进行二次处理。

第二步：分词

将所有物料的物料描述、采购文本、基本单位、单位描述等字段进行文本分词处理，形成特征单词，并去掉噪音词的单词序列并为每个词加上权重，假设权重分为5个级别（1~5）。比如物料中的物料描述：“ O形圈组件，FOR 蝶阀 300D371X-16P,φ40*2.4,EPDM” ==> 分词后为 “ O形圈（4）组件（5）FOR（3）蝶阀（1） 300D（2） 371X（1） -16P（3） φ40（5） *2.4（1） EPDM（3）”，括号里是代表单词在整个句子里重要程度，数字越大越重要。

第三步：Hash处理

将所有关键字进行降维处理，使关键字转变为数字以便进行相似度计算。通过Hash算法把每个词变成Hash值，比如“O形圈”通过hash算法计算为 100101，“组件”通过hash算法计算为 101011。通过步骤三的hash生成结果，需要按照单词的权重形成加权数字串，比如“O形圈”的hash值为“100101”，通过加权计算为“4 -4 -4 4 -4 4”；“组件”的hash值为“101011”，通过加权计算为 “ 5 -5 5 -5 5 5”。

第四步：合并降维

把上面各个单词算出来的序列值累加，变成只有一个序列串。比如 “O形圈”的 “4 -4 -4 4 -4 4”，“组件”的 “ 5-5 5 -5 5 5”，把每一位进行累加， “4+5 -4+-5 -4+5 4+-5 -4+5 4+5”“9 -9 1 -1 1 9”。

第五步：相似度计算

基于杰卡德（Jaccard）算法对所有物料主数据的经过上述步骤处理的文本字段分别进行相似度计算，累加形成相似度排名，最终确定物料主数据的相似度情况。

目前ERP系统中的物料主数据已达到百万级，为了实现大数据量的处理，最终通过秦山核电数润大数据平台进行模型建模和数据挖掘。通过数润平台的HANA内存计算数据库进行物料主数据模型的搭建，完成数据的初步清洗。最终通过sqoop同步到Hadoop平台利用Spark进行计算处理，最终将处理结果会写到HANA提供给展现平台使用。