APP下载

三维数字化矿山地质信息整合系统设计及应用

2021-04-05梁琴琴何东林王振飞王宗江赵丽娜

中国金属通报 2021年1期
关键词:爬虫数据源信息网络

梁琴琴,何东林,王振飞,武 枝,王宗江,赵丽娜

(山东正元冶达科技发展有限公司,山东 济南 250101)

矿山地质信息是地质勘查工作的第一手资料,对地质勘查工作的开展和后续矿山开采都有着重要的作用,为了更好实现对矿山地质信息的管理,并且向地质人员更加清晰地展现地质信息,研发了三维数字化矿山地质信息整合系统。

三维数字化矿山地质信息整合系统具有地质信息收集、保管、整合等功能,该系统的出现极大地节省了矿山地质信息整合时间以及整合难度,代替了传统的纸质地质信息整合方法,三维数字化矿山地质信息整合系统设计开发是地质信息管理工作迈向现代化的必经之路,也促进了矿山地质信息管理工作在信息化建设的发展。虽然现有的三维数字化矿山地质信息整合系统可以精准、快速地整合矿山地质信息,但是传统系统缺乏网络化、系统化运作模式,在对矿山地质信息整合过程中容易出现数据丢失,并且信息丢失量较大,传统系统已经无法满足三维数字化矿山地质信息整合需求,为此提出三维数字化矿山地质信息整合系统设计及应用研究。

1 三维数字化矿山地质信息整合系统硬件设计

此次设计的三维数字化矿山地质信息整合系统的核心硬件为地质信息网络爬虫,该硬件设备的主要任务是获取矿山地质信息网络中的所有矿山地质信息资源,并通过超链接的方式使矿山地质信息网页与系统相对应,并且能呈现出高效、快速、准确的应用效果。

地质信息网络爬虫主要有InfoSpace、Dogpile、Vivisimo三种,InfoSpace地质信息网络爬虫是将多个单一独立的网络爬虫的进行整合,利用计算机索引程序扫描矿山地质信息网络信息资源中的所有文字数据,并且能够明确找到矿山地质信息网络信息资源的位置;Dogpile地质信息网络爬虫是一个单一独立的搜索引擎,该搜索引擎的特点是能够对图片矿山地质信息资源进行爬取;而Vivisimo地质信息网络爬虫是一个分布式网络爬虫,其主要是对音频矿山地质信息资源的爬取。

根据系统设计需求,此次选取InfoSpace地质信息网络爬虫,该地质信息网络爬虫具有云端全功能AI芯片,能够在100W以上的功耗下提供200万亿次/s的运算速度,并且内存宽带达到了126GB/s,它的应用可以有效提高系统的响应性能,其爬取功能的实现主要依靠Sphinx程序,具体爬取过程如下图所示。

图1 地质信息网络爬虫爬取信息流程图

此外InfoSpace地质信息网络爬虫还有三种网络矿山地质信息资源爬取途径,其中包括API接口爬取数据、GUI接口下载数据、编写爬虫程序下载数据。

(1)API接口爬取数据:API是一种应用程序编程接口,该接口是通过预选定义的函数为应用程序提供例程能力。通过该接口可以快速的获取到所需要的网络矿山地质信息资源资源,不需要学习地质信息网络爬虫具体爬取过程,用API接口直接下载网络中关于矿山地质信息数据,可以有效保证爬取到的数据格式的完整性、数据结构的良好性。

(2)GUI接口下载数据:GUI接口爬取路径是对于网络中图形格式的矿山地质信息数据资源爬取而言的。GUI是一种图形接口,该接口具有强大的图形获取功能,地质信息网络爬虫通过该接口完成图形矿山地质资源的抓取,将获取到的信息资源以最直观的图形方式呈现出来,并且该途径不需要网络爬虫记忆大量的爬取命令,地质信息网络爬虫只需要执行少量的选择命令、执行命令完成检索任务,该途径占用的网络资源较少,且具有较高的可靠性。

(3)编写爬虫程序下载数据:编写爬虫程序爬取路径相对于前两种路径,具有高效、高质量等爬取优点,使网络爬虫可以在矿山地质信息网络的公开数据获取中支持正则表达式操作。该路径具有强大的脚本语言系统作为爬虫爬取信息支持,可以精准的获取到与爬取主题相关的矿山地质信息资源,操作简单高效、接口稳定性良好。

2 三维数字化矿山地质信息整合系统软件设计

在系统软件方面设计了矿山地质信息检索模块和整合模块,在矿山地质信息检索模块中设计了数据通路作为三维数字化矿山地质信息整合过程中的空间数据检索路径,在整合时利用数据通路及物联网技术,将相应规则类型中的所有数据信息自动传输到系统终端。为促进整合对矿山地质信息数据的二次开发和利用,并实现更加深入的挖掘,在数据通路与数据管理进行连接,并将所有矿山地质信息通过直接或间接地方式传输到数据库当中,实现对海量可利用矿山地质信息资源的管理。

结合人工智能技术,采用分层模块化的方式,将矿山地质信息数据源代理模块与实际的矿山地质信息数据进行交互,形成矿山地质信息数据源代理与矿山地质信息数据源之间一对一的对应关系。由于实际矿山地质信息数据存在一定的异构性特征,因此,在自主整合过程中,查询命令会出现差异。针对这一问题,对不同类别的矿山地质信息需要设计出对应的数据源代理模块。下图为矿山地质信息数据源代理模块的具体运行过程示意图。

图2 矿山地质信息数据源代理模块的运行过程示意图

根据每个矿山地质信息数据源代理模块的具体运行过程可以看出,矿山地质信息代理模块主要存在于数据源模块与访问协议层之间,是矿山地质信息数据源的源头。利用数据源代理模块对矿山地质信息数据进行查询,并对数据源进行注册。

通过对可扩展标记语言的格式进行查询,并利用异构数据或者不同访问接口数据进行接口转换软件将相应的查询指令转换为本地可以识别的查询命令,再将转化后的命令提交到数据源当中完成对矿山地质信息数据的查询。再将获取到的查询结果通过异构数据或者不同访问接口数据进行接口转换软件转化为原始数据格式,并按照访问协议将其进行保存处理,再传输给矿山地质信息整合模块当中。

针对数据源的注册操作,主要是为了将采集到的矿山地质信息数据源信息通过注册使其为相应的部件形式,在矿山地质信息整合过程中进行主动注册,数据源通过自主的加入或退出,以发送对应可扩展标记语言的格式,实现对三维数字化矿山地质信息数据包的整合。在进行对数据源的注册时,发布的数据源内主要包含矿山地质信息内容、格式、来源等相关信息。

针对数据源代理中矿山地质信息数据的广泛、异构特点,在三维数字化矿山地质信息整合过程中还需要建立相应的元数据标准、统一数据对象模型,以及矿山地质信息数据存储等利用元数据进行分析,得到矿山地质信息数据源的具体数据结构,并根据时间将矿山地质信息数据源划分为历史数据与近期数据两部分。同时,在划分前还需要对矿山地质信息数据进行汇总,进一步减少对数据的遍历时间,采用按照维度整合的方式或提取数据的方式对三维数字化矿山地质信息进行整合。

3 实验论证分析

实验以某三维数字化矿山地质信息数据包为实验对象,该数据包大小为1000MB,利用此次设计系统与传统系统对该数据包中矿山地质信息数据进行整合。实验中共部署了三台服务器,其中一台服务器分配到系统Python集群,2台服务器分配到系统Storm集群,下表为服务器部署情况。

表1 实验服务器配置表

实验将数据包中矿山地质信息数据平均分成五份,利用两个系统对信息进行整合,记录在数据整合过程中原始数据丢失量,将其作为实验结果,对两种系统进行对比分析,实验结果如下表所示。

表2 两种系统数据丢失量对比(MB)

从上表可以看出,此次设计系统在对地质信息整合过程中丢失的数据量较少,少于传统系统,证明了此次设计的三维数字化矿山信息整合系统优于传统系统。

4 结语

本文结合数据检索引擎技术和信息整合技术,研发设计了一套新的三维数字化矿山地质信息整合系统,在软件方面和硬件方面都进行了创新和优化,极大地降低了系统运行过程中矿山地质信息丢失量,保证了矿山地质信息安全。此次研究为三维数字化矿山地质信息整合系统设计与开发提供了良好的理论依据,提高了矿山地质信息整合工作的数字化和信息化水平,对促进矿山地质行业的发展具有良好的现实意义。

猜你喜欢

爬虫数据源信息网络
利用网络爬虫技术验证房地产灰犀牛之说
基于异构信息网络的学生成绩预测与预警模型研究
基于Python的网络爬虫和反爬虫技术研究
本刊启事
利用属性集相关性与源误差的多真值发现方法研究
电力信息网络双通道故障自动探测策略探究
大数据背景下校园舆情的爬虫应用研究
Web 大数据系统数据源选择*
浅述非法利用信息网络罪的相关问题
数据有增加 图表自适应