APP下载

基于大数据的检验检测信息化平台设计

2021-03-15胡家明

科技创新与应用 2021年10期
关键词:数据源前置文档

胡家明

(贵州高质云检信息科技有限公司,贵州 贵阳550000)

引言

目前检验检测在全球范围内已经建立了完整的产业链,以美国、欧洲、日本为代表的发达国家基本上主导了全球范围内的检测仪器设备与检测服务认证相关业务,并在国际贸易中承担着重要的第三方检测服务角色。当前我国由高速发展向高质量发展过渡,在发展过程中检验检测机构作为标尺的重要作用,但作为现阶段的检验检测行业,处于发展的瓶颈期,如何摆脱传统技术束缚,成为了当下的热点话题。本文设计采用大数据架构,结合互联网、无线通信等技术将实验仪器采集到的数据上传至云平台,保证了数据的准确性、实时性和可靠性,大大提高了检测机构的办公效率和公信力。

1 总体框架设计

设计需要以检测机构中实验室检测数据作为数据源,将海量数据提供给运营商实现应用系统功能开发。下面介绍实验室检测数据如何具体作为数据源提供给大数据平台,实验室仪器用于检测分析送检产品含量超标,将检测的数据通过RS232 总线发送至PC 机上,PC 机应用软件将生成的PDF 文档数据提取出特征数据通过无线传输方式发送至前置机,而前置机一方面将数据发送至阿里云OSS 作为数据备份存储,另一方面将数据发送至大数据平台提供数据分析、数据接口、数据查询和数据交换等服务,从而在应用层实现在线认定、在线检测、在线报告等远程服务(如图1)。

2 大数据信息化平台架构

在以往中的大数据架构中需要导入大量复杂数据,再借助kappa 架构或lambda 架构对数据进行建模分析、提取出有价值的数据,但对于检验检测机构这是不适用的,不同检测机构中的不同实验室仪器生成的数据表格很难统一,存在很多差异,这对于在大数据平台实现数据处理难度非常大,所以在检验检测的大数据平台搭建中数据处理在数据源就已经完成。各种仪器生成的PDF 文档数据在PC 端就实现数据引入、处理和分析,然后发送至前置机再转入云端实现流处理和批处理,通过数据作为平台业务支撑引入其他服务。信息化平台搭建需要的主要有数据源、数据存储、实时信息引入、批处理和流处理下面逐一介绍模块。

图1 总体框架图

2.1 数据源

数据是整个大数据平台架构的基石,为信息化平台提供各种服务支持,本次设计检验检测信息化平台的搭建使用的数据源以实验室仪器检测出的数据,数据源主要包括:报告时间、试样ID、稀释倍数、检测含量以及相关性等。

2.2 数据存储

检验检测机构每天处理海量数据,将数据备份存储,建立Web 服务器日志文件保证数据的可靠性、安全性便于后续查询,设计将实验室PC 机生成的PDF 文档数据发送至前置机再转发至阿里云OSS 服务器实现数据存储随时查看上传数据是否失真。

2.3 实时信息引入

实时性是大数据信息化平台的一个重要标准,将数据放入缓存区,确保在规定的时间内发送。检验检测机构每天都会生成大量的数据,利用Python 脚本实现PDF 文档数据特征提取发送至前置机,通过前置机发送至数据分析平台在提升数据的安全性上,保证了数据的实时性。

2.4 批处理

由于实验室检测数据集是海量的,因此大数据信息化平台的解决方案通常必须使用长时间运行的批处理作业来处理数据文件。本次设计改进处理方式能够保证在上传文件不丢失的基础上实现实时性,提升批处理文件效率。

图2 大数据信息化平台结构图

2.5 流处理

实验室仪器在PC 机上生成的PDF 文档数据通过解析形成Json 格式的数据发送至前置机,再由前置机通过Http 协议的POST 请求发送实现数据的实时处理。

3 实验室无线通信布置

数据传输方式分为有线跟无线方式两种,在实验室采用无线通信方式。无线通信一方面减少实验室网络布线,保证原来实验室仪器布局。另一方面降低了成本,每台PC 机都连接上网线则需要在每一个实验室安装6 口或8 口网口交换机同时需要将网线铺地或铺过墙的方式需要大量的网线布置。本次设计采用无线通信方式实现数据发送,每个检测机构通过配备的前置机与云端建立数据通信。

图3 实验室数据发送方式

WiFi 网络通信:

实验室PC 机与机房中的前置机通过无线传输方式实现数据通信,设计使用最常用且性价比较高的WiFi 传输方式。在传输方式上又分为两种模式:AP、STA、AP 混合STA。AP 模式为无线接入点,以一个无线路由器作为网络的中心,接入AP 模式下的设备能够相互访问连接,STA 模式由一个AP 和许多STA 组成,AP 作为无线网络的中心完成STA 信息的转发,STA 设置Client 实现com数据与WiFi 网络数据的相互交换。本次设计采用STA 模式实现各个实验室PC 机相互通信,通过在实验室放置WiFi 路由器覆盖整个检测机构设置实验室PC 机使之都在同一IPV4 频段下,这样做的目的是与机房中的前置机实现数据通信。

图4 WiFi 网络

4 采集数据发送

传统实验室仪器采集的数据发送给PC 机生成PDF文档数据,然后再根据手动方式输入特征数据打印产品检测报告,这样显然不能满足现代化处理方式。通过使用OCR(Optical Character Recognition,光学字符识别)字符识别的手段翻译成计算机文字。对于OCR 识别一般采用的识别软件将图片中的文字转为文本格式。本次设计利用python 脚本语言使用pdfplumber 识别框架,该框架能够对文字、表格、数据特征提取。同时使用pyQt5 设计界面,便于实验室人员操作。

4.1 PDF 文档数据解析

PDF 文件主要有四个部分:文件头,对象集合,交叉引用表,文件尾。在解析的过程中先解析文件尾,得到交叉应用表以及根对象编号,将这些再逐层解析文档内容。解析中需对文档内容对象进行分析,如果是直接对象就直接存储实际内容,间接对象通过指针寻址。

实验室仪器采集数据发送PC 机会生成一个PDF 文档,在PC 机上生成的PDF 文档数据直接发送至大数据信息化平台处理对云服务器和运行算法都很难实现,设计采用在本地完成数据采集、处理和发送减轻云服务器的运算负担。通过python 脚本代码使用pdfplumber 库实现PDF 文档转为文本格式数据,再使用正则方法提取不同的数据内容。

4.2 pyQt5 界面设计

对于实验室人员需要使用人机操作界面完成一键操作。实现的需求有当点击界面发送按钮自动将指定路径下的PDF 文档数据完成解析,将解析过后的数据发送至另一个路径完成保存,然后将解析后的数据进行特征数据提取详情显示,一般的显示内容有进样名称,采集仪器、采集方法等,与此同时将特征数据与对应的文档内容发送至前置机。设计加入容错机制,使用线程方法不断读取路径下文档设计界面设置三个指示灯,默认为全黄色。当运行时,第一个指示灯绿色表示PDF 文档解析成功,第二个指示灯变为绿色表示发送前置机成功,第三个指示灯变绿色表示数据发送云端成功。

图5 PDF 基本组成

图6 人机操作界面

5 系统运行结果

5.1 人机操作界面

基于pyQt5 设计的人机操作界面在上实验室PC 机运行,操作步骤第一步将数据存储在指定的文件夹路径且名字不可设置与之前相同文件名,第二步双击生成好的exe 应用程序,第三步点击开始解析。完成以上操作运行过程会根据指示灯显示,指示灯全部为绿色表示成功入库,同时在详情中显示提取PDF 文档的特征数据(如图7)。

5.2 大数据信息化服务平台

搭建检验检测信息化平台依托大数据实现数据可视化,平台上设计了多种多样的功能帮助检验检测人员简化送检流程提高工作效率,主要功能有日志管理、缓存监控、任务轨迹、流程管理、表单设计、表单管理等功能。下面对这些功能进行逐一介绍:

图7 界面运行结果

(1)日志管理功能:对平台采集过的数据进行云存储,做到检验检测进行的每一步都有迹可循、有据可依,存储方式安全,数据不会遗失。

(2)缓存监控功能:对平台采集的数据和实验室环境进行实时监控,如果采集的数据或者是实验室环境出现问题可以第一时间发现,极大的提高了采集数据的高效性和实验室的安全性。

(3)任务轨迹功能:对已完成和正在进行的项目进行轨迹追踪,方便工作人员通过数据可视化直观的看到项目的进行情况。

(4)流程管理功能:对不同的检测任务流程进行监控,可以实时的监控到不同任务的工作情况以及工作进度并且可以对正在进行项目流程进行调整,方便检测人员管理项目。

(5)表单设计功能:根据需要,可以在线对采集的数据在线生成合适的表单,编辑方式灵活多变,可以满足多种数据格式要求。

(6)表单管理功能:对已生成的表单进行大批量管理,可以对已有的表单进行删除、提交和修改。

6 结束语

实现检验检测机构资源整合,建立在线送检,实现传统检测机构与互联网结合,提高检验检测机构的信息化水平和检测服务能力,检测过程信息化、检测仪器物联网化、检测结果报告数字化,确保数据检测的各环节全程可控制。促进大数据行业发展。检验检测认证公共服务平台的建设与大数据的发展紧密相连,平台收集各个渠道的检测业务数据,经过大数据分析,精准的为政府工作提供有效的决策,也更好的规范检测业务行业。促进高新区业务发展。大数据信息化检验检测、认证资源将通过平台实现共享,为打造以省高新示范区企业产品研发、生产和使用提供检验检测与认证的“一站式”服务。

猜你喜欢

数据源前置文档
浅谈Matlab与Word文档的应用接口
有人一声不吭向你扔了个文档
被诊断为前置胎盘,我该怎么办
前置性学习单:让学习真实发生
国企党委前置研究的“四个界面”
精准的声音还原 Yamaha CX-A5200前置放大器
利用属性集相关性与源误差的多真值发现方法研究
Web 大数据系统数据源选择*
Word文档 高效分合有高招
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat