APP下载

基于哈希算法的数据中台在智慧电站中的检索应用

2021-08-06孙猛邓志成丁刚

新型工业化 2021年4期
关键词:中台度值哈希

孙猛,邓志成,丁刚

(上海发电设备成套设计研究院有限责任公司,上海 200240)

0 引言

智慧电站是现代数字化科技与电力行业不断发展与不断融合的产物。数据中台是通过数据技术,采集、计算、存储、加工海量数据的同时,统一标准和口径。随着人工智能技术、互联网技术、信息化技术等现代技术的不断发展与延伸,其已经融入多个行业领域中,实现“智慧”建设与发展[1]。在创新型“数字中国、智慧社会”建设道路中,利用数据中台统一智慧电站数据,形成标准数据并存储,进而为电力工业提供高效服务。电力工业作为国民经济的重要领域,电力工业的发展水平可以反映出一个国家生产力的水平,同时也是判断国民经济发展水平的一个重要依据。因此,无论是从社会发展角度还是国家发展角度,智慧电站建设都是电力行业目前以及未来发展的主要方向。

近几年围绕“智慧电站”建设也开展了大量的研究工作,相关领域研究学者以及专家学者针对如何建设智慧电站以及如何开发智慧电站平台,提出了大量的研究方案和建议。智慧电站具有多项功能,其中最为重要的一项就是检索功能,能够对电站生产信息、设备信息、人员信息等所有信息进行综合性检索。文献[2]提出基于图数据库和知识图谱的电力设备质量综合管理系统,根据图数据库的数据存储和遍历机理,设计领域知识图谱模型,利用知识图谱算法,设计高效分析检索方法,采用数据间的关联关系,分类分层组织电力数据,实现电力综合管理。虽然该方法有了明确的技术理论作为理论支撑,能够有效提高数据检索查询效率,但是该方法的数据检索结果匹配度值较小,导致检索精度较低的问题,已经无法满足智慧电站信息检索需求,为此,提出基于哈希算法的数据中台在智慧电站中的检索应用。

1 哈希算法概述

哈希算法是一种具有代表性的最近邻检索技术,该算法可以满足大规模数据检索对数据存储空间和检索精度的特殊要求,通过迭代计算的方式,逐渐挖掘与用户检索意愿相符合的信息,由于哈希算法具有收敛性高、检索精度高、计算过程简单等优点,已经被应用到多个领域中,并且也受到了研究者的密切关注[4]。哈希算法是根据信息长度等特征为检索目标进行数据检索的,将数据信息表示成一组长度一定的二值编码,也就是哈希码,并利用固定数值表示数据信息的比特值[5]。哈希算法在计算过程中最基本的步骤就是哈希函数的构造,哈希函数可以是线性形式也可以是非线性形式,该函数的构造精度将直接关系到数据信息检索准确度和检索速度,因此在哈希算法应用中如何构建一个有效的哈希函数是信息检索的关键性问题。

哈希算法最早是由英国Gionis等学者提出的,简称LSH(Locality Sensitive Hashing),最早哈希算法被称之为经典数据不依赖哈希算法,最初的哈希算法存在一定的局限性,后来经过不断对哈希算法研究,得到了编码长度更短、检索效果更好的哈希函数以及二值码,从海量数据中提取到有价值的哈希码,并将哈希算法与人工智能算法进行了融合,衍生了一系列哈希算法的变种算法,变种算法包括了非监督哈希算法和监督哈希算法两种,其中非监督哈希算法在计算过程中没有使用到监督信息,其主要利用数据信息的分布特征和数据流行结构等生成较短的哈希码,而监督哈希算法是在计算中应用到了监督信息,将哈希算法求解过程简化为一个平衡图划分问题,利用二维拉普拉伸特征函数对数据信息进行不断计算,求出哈希码[6]。无论是非监督哈希算法还是监督哈希算法后来都被统称为哈希算法,并且哈希算法还有严格的实验数据保证哈希算法对数据信息检索的效果[7]。哈希算法由于具有良好的计算功能,并且具有良好的检索效果,为了更好地发挥其功能,被引用到数据中台搭建中,通过数据中台对海量数据信息进行计算,提高了哈希算法对信息检索的匹配度。

2 基于哈希算法的数据中台在智慧电站中的检索设计

2.1 智慧电站信息描述

在对智慧电站信息检索之前,必须要对智慧电站中的信息进行准确描述,并提取到智慧电站数据信息的基本特征。在智慧电站中,数据信息多以数学表达式的方式表示,而数据信息的特征属性主要包含普遍性、客观性、依附性、共享性等特征属性,这些特征属性是描述智慧电站信息的关键参数[8]。此次采用数字信息描述方法对智慧电站信息进行描述,将智慧电站信息视为二维空间的f(x,y)连续函数,其中x坐标表示智慧电站信息的横向连续构图,y坐标表示智慧电站信息的纵向连续结构图,运用该连续函数对智慧电站信息的物理层、逻辑层、语义层三方面进行描述,其中物理层包括智慧电站信息的大小特征以及轮廓特征;逻辑层主要包含智慧电站信息的数字逻辑关系和逻辑属性;语义层描述主要用于表达智慧电站信息的主要内容、信息主题等[9]。通过以上对信息三个属性的描述表示出智慧电站信息,将所有描述信息构建成一个智慧电站信息描述集合N,将其作为智慧电站信息的标签,以此完成对智慧电站信息的描述。

2.2 构建加权图模型

智慧电站中每一个数据信息的空间维度是不同的,为了更加精准地检索到智慧电站信息,本文根据对智慧电站信息的描述,建立智慧电站信息的加权图模型,加权图模型的建立主要是反映出智慧电站数据信息的空间特征向量,为后续基于哈希算法的数据中台的计算提供依据[10]。加权图模型建立的好与坏将直接关系到智慧电站信息检索精度,因此本文在对智慧电站数据信息加权图模型构建过程中,考虑了数据节点与对应边的连接方式,以及定义数据信息相关边的权值度量,将智慧电站全部节点数据组成一个n×m向量空间,其中n表示为智慧电站中已经描述完成的数据节点的数量;m表示智慧电站中各个数据节点的属性个数,即智慧电站信息描述集合N中的子集数量。智慧电站中数据信息映射到加权图模型中表现的是相互分散的数据点,为了能够保证各个数据点之间有足够的连接,并且还能保留加权图的稀疏性,此次采用临近图来构建智慧电站数据信息加权图模型。

首先根据对智慧电站数据信息的描述,计算出各个数据节点最邻近的数据点,在数据描述集合N中,查看最邻近的几个智慧电站数据信息的流行结构属性,如果数据信息的流行结构属性特征相一致,那么几个数据点创建一个连接边,表示该几个智慧电站数据信息相似,这样可以获取到由多个连接边组成的单独集群[11]。在整个加权图模型中,利用智慧电站数据节点之间所连接边上权值表示出检索数据之间的关联度,连接边权值越大,则表示数据关联程度越高,因此,在对加权图模型构建中,还需要计算出各个连接边的权值大小,此次利用智慧电站各个数据节点之间的距离,计算连接边权值大小,假设智慧电站数据信息节点之间的距离函数为d(x,y),利用欧式距离表示出智慧电站数据节点之间的距离,其计算公式如下:

公式(1)中,n表示智慧电站数据信息的空间维数;xi表示智慧电站中在节点i的数据;xj表示智慧电站中在节点j的数据[12]。计算完各个数据节点之间的欧式距离后,利用高斯核函数定义数据xi与数据xj连接边权重,其计算公式如下:

公式(2)中,w表示智慧电站数据xi与数据xj连接边权重;δ表示高斯系数,通常情况下该系数值为0.1[13]。利用上述公式计算出智慧电站数据与数据连接边权重值,并将其复制到由多个连接边组成的单独集群图上,以此完成对智慧电站数据加权图模型的构建。

2.3 引入基于哈希算法的数据中台

在上文构建的加权图模型基础上,引入基于哈希算法的数据中台,对智慧电站中数据进行检索计算。计算过程主要包括三部分,首先在数据中台中设计一个哈希函数,然后使用哈希函数对加权图模型上的数据集进行哈希编码,最后利用哈希编码对智慧电站中的数据信息进行检索,其具体计算过程如下。

根据智慧电站数据信息检索需求,并结合数据信息描述内容,在数据中台中,选择线性哈希函数作为智慧电站数据信息哈希码的计算函数,并在数据中台中选择非线性映射形式,将线性哈希函数与非线性映射形式结合,就可以表示出哈希函数的非线性形式,其用公式表示如下:

公式(2)中,f表示智慧电站数据信息的非线性映射;q、b表示数据中台中哈希函数所需要学习的参数,其中q表示智慧电站数据信息的映射参数,b表示加权图模型中数据信息的截距项参数[14]。利用哈希函数对加权图模型上的智慧电站数据信息进行不断的训练和学习,学习哈希函数中的参数q、b,就可以得到用0或者1表示的哈希码。

在数据中台中,利用哈希函数计算到智慧电站数据哈希码后,就可以在数据中台中根据哈希码对智慧电站数据集进行编码,对智慧电站数据集中每一个数据赋予一个哈希二值码M。为了节省基于哈希算法的数据中台的存储空间,使用四位的哈希二值码对智慧电站数据集进行编码,这样还可以提高哈希算法的计算速度[15]。得到哈希二值码M后,在基于哈希算法的数据中台将哈希二值码M组织成一个倒排的哈希表,以哈希桶作为表格的单元名称,代表一个二维的哈希码,为后续智慧电站数据检索提供方便。

在上述两个步骤基础上,利用智慧电站数据集的哈希表对智慧电站最邻近数据进行检索,将检索关键词或者检索图片在基于哈希算法的数据中台中转化为哈希码,将该哈希码与智慧电站数据集的哈希码进行比较,得到智慧电站数据与检索词的汉明距离;按照哈希表上智慧电站数据的排序,返回与检索关键词最相近的数据信息,即哈希表上最上端的数据,将其作为检索结果在数据中台上显示,以此完成基于哈希算法的数据中台在智慧电站中的检索设计。

3 实验分析

实验选取某智慧电站数据集作为实验对象,该数据集名称为HDKD502,数据样本数量为10000000个,数据集维度数为3642,存储空间为765M。实验利用IIJS软件,分别采用此次设计方法与文献[2]方法对该智慧电站数据集进行检索,测试出检索结果与关键词的匹配度值。实验中对该数据集描述信息为236M,构建的加权图模型中数据节点连接边数量为1369652条,在基于哈希算法的数据中台中计算得到的哈希码为1。实验设计了8个检索关键词,其哈希码分别为0.95、0.36、0.58、0.46、0.95、0.21、0.52、0.55,记录两个检索方法所得到的检索结果,并对匹配度值以量化后的形式表示,其范围在0-1之间,匹配度值越接近1,则表示检索结果与检索关键词的相符程度越高,检索精度越高;匹配度值越接近0,则表示检索结果与检索关键词的相符程度越低,检索精度越低。实验将匹配度值作为检索结果,其实验结果如表1所示。

表1 两种方法检索结果匹配度值对比

从表1中的数据可以看出,文献[2]方法检索结果与检索关键词的匹配度值在0.168-0.593之间,匹配度值较小,接近0,而设计方法检索结果与检索关键词的匹配度值在0.989~0.999之间,匹配度值较大,接近1,由此可知,设计检索方法检索精度较高,匹配度值较大。

4 结语

本文对基于哈希算法的数据中台在智慧电站中的检索应用进行了研究,采用哈希算法,结合数据中台技术,针对智慧电站数据检索现状,提出了一套新的智慧电站数据检索方法,并利用实验验证了基于哈希算法的数据中台在智慧电站中具有良好的应用价值,提高了智慧电站信息检索精度,为电站运营管理提供高水平、高质量智慧电站平台。但由于智慧电站建设研究涉及的范围比较广泛,此次仅针对智慧电站检索功能的设计与开发进行了研究,对智慧电站建设方面的研究在内容上和深度上还不够,今后有待对智慧电站建设进行进一步的探究,促进电力工业不断发展。

猜你喜欢

中台度值哈希
探讨公路项目路基连续压实质量检测技术
中台是媒体转型必经之路吗?
——媒体中台建设的特点和误区
文件哈希值处理一条龙
关于零售企业“中台”建设的研究
汽车制造企业质量中台研究
以技术开发中心为中台,数字化转型之见解
无线传输中短码长喷泉码的度分布优化算法*
微博网络较大度值用户特征分析
基于OpenCV与均值哈希算法的人脸相似识别系统
巧用哈希数值传递文件