APP下载

免疫层析技术在毒品检测应用中的数据质量治理研究*

2022-06-22吴剑丙程向炜王凌志李彬

警察技术 2022年3期
关键词:试剂毒品曲线

吴剑丙 程向炜 王凌志 李彬

1. 浙江警察学院浙江省毒品防控技术研究重点实验室 2. 浙江省台州市公安局 3. 公安部第一研究所

引言

根据当前禁毒工作的需要,统筹建设禁毒实验大数据平台将有效加强全国相关实验数据的统合研判,达到精准高效监测预警毒情的效果,并可实现相关毒品检测数据的汇集共享。目前在浙江省公安厅层面已部分接入检测相关数据,预计将逐步完成由数据分散化存储到集中化管理的第一步。

禁毒工作尤其需要强调数据管理的重要性,而免疫层析技术的毒品检测数据包括了生物数据和信息数据两大类型,其数字化转型的难度相对较大。本文正是基于前期曲线识别及错误分类相关研究专利及实际工作中近50万条毛发毒品检测数据筛查经验,研究并提出了一种毒品检测数据的规范格式,同时讨论了毒品检测数据的清洗、管理标准,为免疫层析毛发毒品检测行业提供了一套可全流程溯源的数据智能分析方案。

一、需求分析

由于早期没有健全的数据治理体系,而各地公安系统之间的数据服务商不同,且服务商是独立的,他们之间存在竞争关系,导致在数据使用过程中出现了一些问题,包括:(1)未提供统一的数据标准,各数据服务商在系统建设时数据字典自成一套;(2)存在数据质量问题,例如:服务商提供的检测数据,由于一线操作、产品质量等原因,导致数据是重复计算、无效或者假阳性等问题。早期可通过技术人员的简单筛查,部分避免了重复的问题。但是,随着数据的持续生产,通过增派人力等简单的方法已无法覆盖全部的数据筛查;(3)未建立有效数据问题反馈机制,低质量的数据跨部门共享与交互,质量问题反复出现未得到反馈与及时修正,导致数据质量问题越来越严重;(4)虽建立了资源目录,但缺乏数据仓库建设过程,造成数据表之间关联性差,不利于数据的整体管理;(5)无法监控数据使用率,不能对数据进行精细化管理,数据价值未得到释放。

基于以上问题,需在现有禁毒实验数据建设的基础上进一步提升数据质量,建立数据标准,研究制定合适的数据问题解决方案,通过涵盖全数据生命周期数据治理,建设涵盖全省各级公安部门多条数据的大数据治理平台,并建立覆盖数据全生命周期的数据治理体系,为征兵及公职人员体检、社戒社康及其它高危行业人群筛查提供各类数据服务。该体系在未来可以纵向衍生至其他毒品检测项目,包括毒品尿检板、唾液板等技术的检测,也可以横向衍生至其他警种,包括食药侦、经侦、爆探、海关等场景,为数字化经济、数智化治理带来新的技术与方案,有效提升公安队伍的战斗力和公安业务工作的实战力。

二、检测数据质量治理研究

(一)检测数据清洗的意义

在检测数据的科学管理方面,业内尚未形成一致的治理意识和方法。胶体金法、乳胶法等可视化产品结果并没有统一的数据归口;荧光法的检测结果数据通过荧光仪器检测后,数据通过第三方数据服务商上传到公安内网,不同数据服务商平台之间并不互通,且缺乏系统地规范和管理。

市面上大多数检测终端设备通常不具备分析数据有效性以及无效数据的成因的能力,造成针对免疫层析曲线的分析效率及准确度较低。检测终端设备对免疫层析曲线的分析结果只有在曲线数据有效的前提下才会准确。无效的曲线数据会使仪器判读结果失真,让一线民警难以得到及时、正确的反馈,影响排查工作的流畅运行。

此外,在对检测数据结果进行分析之前,数据平台若不对曲线的有效性进行识别,也会导致产生的无效数据影响分析结果。若不对检测数据进行清洗,有效和无效的数据一同参与仪器内置计算模块的判读并上传至云端平台,会导致判读结果失真、数据平台管理困难等问题,因此,急需对检测数据进行正确清洗。

(二)数据格式

为了优化检测数据的管理,需要对上传至数据库的数据进行一定标准化的规定,以方便接口标准的制定。规定一次检测数据必须包含的信息有:检测数据=唯一码+身份信息+原始数据+仪器判读结果+算法判读结果+算法标识+备注。具体包括以下内容:

1. 唯一码

是本条检测数据的一般标识信息。一经生成,不可再更改。唯一码包括了时间(Time)、试剂码(Reagent ID code,由试剂厂商提供)和流水号。

2. 身份信息码

包含着该条检测数据的详细标识信息。一经生成,不可再更改。身份信息码中包含了地区唯一码(Location,定位到该条测试数据生成的地区)、测试操作人员身份证号(Operator)、被测人员身份证号(Subject)、仪器序列号(Machine Serial Number,由仪器厂商提供)、样品编号(Sample,定位到该条测试数据生成的具体工作场景)和项目号(Item,由测试操作人员选择生成,代表检测目标物)等多个信息。

3. 原始数据

毛发检测等的荧光法产品产生的原始数据,一般数据格式为1*X矩阵(X一般为350)。原始数据一经生成,不可再更改;唾液检测、尿液检测等的乳胶法、胶体金法产品产生的原始数据,一般为拍摄图片。

4. 仪器判读结果

如毛发检测等的荧光法产品[1],由仪器判读结果后自动生成并上传,具体流程见图1。主要包括:C值,T值,阴阳性,待测物品浓度等。一经生成,不可再更改;如唾液检测、尿液检测等的乳胶法、胶体金法产品,由一线民警判读后拍照上传,选择阴阳性结果。仅可修改一次,且修改历史均被记录。

5. 算法判读结果

在经由终端仪器判读的原始数据,经由官方认证的算法进行二次判读,格式为检测数据有效性+无效检测数据类别,生成后可以更改。

算法包括单不限于:传统模型、混合算法、基于异构特征矩阵判别的AI模型[3]、欧式距离匹配法、卷积神经网络算法、KNN(k-Nearest Neighbors,最邻近)算法、BP(Back Propagation,反向传播)神经网络算法、SVM(Support Vector Machines,支持向量机)算法等;模型可以通过机器学习的方法对其进行优化,也可以建立其他机器学习模型,以进一步强化识别效率。

机器学习模型的识别精度达到一定程度后,可以极大程度地节约检测数据的管理成本。

6. 算法标识

上述所涉及的相关算法,需经过相关认证后才可作为判读依据使用。

7. 备注

数据产生全过程中的测试、上传、判读、复核、删改记录、判读依据以及交流记录等,用于给数据处理算法的优化提供反馈,生成后可以更改。

(三)数据权限

检测数据从一线民警的毒品检测工作中产生,对应公安机关或当地政府部门对数据进行监管。数据清洗步骤主要由第三方单位负责,清洗过程中数据全程脱敏(清洗:提取数据中的有价值信息,详见下文;脱敏:不对第三方企业开放敏感信息)。数据权限开放模式如表1、图2所示。

监管部门对所有企业和第三方的数据平台进行监管,拥有抽调自己或下方平台数据的权利,保证对毒品检测工作的全程可溯源。运行和保存数据的第三方平台提供全链路服务,对接仪器和试剂厂家进行适配,承担数据的初步收集、售后和对数据清洗的任务。基层用户,一般为一线民警,拿到仪器和试剂后,按照规定的操作步骤正常使用,将数据上传并通过平台得到及时的反馈,最大程度地提高基层工作效率。上述三方可通过唯一码定位到任意一条检测数据记录,并以唯一码作为沟通桥梁进行交流配合。

检测数据从检测场景生成并上传后,监管、第三方、基层用户均不再对其进行删除,且只有标识和备注信息可修改;其余信息若有空缺,可以填补;若有大量关键信息空缺难以填补,可根据相应的规定删除整条检测数据;除上述情况外,不可再对检测数据进行删改。

?

三、检测数据清洗标准研究

(一)免疫层析曲线

免疫层析曲线(如图3)是通过免疫试剂在相应试剂条的加样孔处加样,通过毛细效应逐步经过“结合垫-NC膜-吸水垫”跑板形成的。试剂条NC膜上划有的T线(Test线,测试线)和C线(Control线,质控线)分别用作试剂的阴阳性检测及质量控制。跑板结束后,将试剂条插入仪器,对试剂进行光强度的数值量化,同时读取数据并上传至数据平台。

(二)有效数据的具体特征

本方案定义的有效检测数据具有以下特征:

1. 曲线图中出现的峰的个数符合实际测试项目要求且峰的形状明显易辨识

有效的检测数据,其中C线、T线峰的位置必须准确,且C线明显,易于辨识。如图4所示,曲线图中出现的峰的个数符合实际测试项目要求。单测项目试剂条有2个峰(C线、T线),双测项目有3个峰(T1线、T2线、C线),三测项目有4个峰(T1线、T2线、T3线、C线)。

2. 曲线形状无异常

曲线图片中出现以下情形,导致C线和T线难以辨别的,视为曲线形状异常(如图5所示):峰的个数太多或为零;峰的对称性较差;波峰波谷不明显(峰的辨识度较差);曲线呈锯齿状等其他情形。

3. 测试基础数据无异常。

测试基础数据(如图6所示)由仪器产生并上传,可能会由于操作失误等原因出现错误。其中,项目名称、批次名称均由基层民警手动录入,有时会出现录错的情况。

(三)无效数据分类

无效数据并非无用,因为无效数据中包含着对毒品检测工作流程的优化建议信息。通过对无效信息成因的解读,根据无效数据的异常信息特征对其进行无效原因归类,可以找到毒品检测工作过程中出现的错误或失误。根据上述有效数据的定义标准,检测数据的异常信息可大致分为三类:曲线峰数异常、曲线形状异常和测试基础数据异常。其中,异常信息用于表征免疫层析曲线与预设有效曲线之间的差异类型和差异类型对应的差异大小,根据异常信息中各个差异类型的优先级和/或差异大小,确定免疫层析曲线的无效原因类别。无效原因类别的确定过程中考虑了差异类型的优先级和/或差异大小等因素的影响,有效提升检测数据分析的效率和精确性。无效原因类别一般有:试剂条受潮、读数时间太短、读数过程中拔插试剂卡板、试剂卡板插反、未滴样、滴样量太少等。

将一次检测数据判定为有效数据或无效数据,并给无效数据加上合适的无效原因归类,即完成一次数据清洗。

四、结语

终上所述,本研究所提供的技术方案中,第三方单位获得其数据的使用权并提供技术支持,监管部门如政府部门、公安机关等对接对禁毒用品、毒品检测、涉毒管控等工作的全程追溯渠道。数字化治理使决策的合理性、科学性越来越高,降低决策者主观情绪带来的随机偶然性。在禁毒工作中,强大的数据管理能力可以极大程度地提高公安执法能力和执法效率,实现对吸毒涉毒人员在时间、空间上的严格精准管控。

数据中发掘出的有价值信息不断促使上游产业以及后端人员优化其提供的产品与服务,从而促进相关产业深化改革、转型升级。同时,技术驱动的治理方案优化,可以为禁毒工作提供新的思路,注入新的活力。

目前,本研究所提供的技术方案存在一定的局限性,特别是在推行应用过程中面临着业内外人士数据意识普遍薄弱的困难。因此,一套完整、科学的数据清洗标准的确定,需要具有深度从业经验的人员进行大量探讨,短期之内难以达成。另外,本技术方案中的大部分环节交由AI处理,由于禁毒工作的特殊性[4],某些情况下可能出现AI技术带来的新的伦理困境。

在大数据战略的环境下,各行各业都在探讨、提出并完善相应的数据治理方案[5-7]。不同行业、产业、单位的数据治理方案之间也需要优势互补、共同促进数字化经济的建设。因此,本研究所提供的技术方案以免疫层析技术的毒品检测为例,为毒品检测数据质量治理工作提供了解决方案,未来应用于其他毒品检测项目,包括毒品尿检板、唾液板等技术的检测,也可应用至其他警种,包括食药侦、经侦、爆探、海关等场景,为数字化经济、数智化治理带来新的技术与方案,有效提升公安队伍的战斗力和公安业务工作的实战力。

猜你喜欢

试剂毒品曲线
销毁毒品
未来访谈:出版的第二增长曲线在哪里?
抵制毒品侵害珍惜美好年华
国产新型冠状病毒检测试剂注册数据分析
检验科试剂管理面临的主要问题及对策
幸福曲线
火烧毒品
环境监测实验中有害试剂的使用与处理
梦寐以求的S曲线
远离毒品珍爱生命