基于流形学习方法的大数据分析技术在检验检疫行业中应用探讨

2015-05-30徐胜林魏颖昊仵冀颖

计算机时代 2015年7期

徐胜林魏颖昊仵冀颖

摘要：在大数据时代背景下，数据分析技术广泛应用于提取海量数据中的有效信息。检验检疫行业形成了以CIQ2000综合业务管理系统为基础，以电子申报、电子监管、电子放行为主要内容的中国电子检验检疫建设格局，积累了大量来源不同、类型不同、时间周期不同、用途不同的结构化和非结构化数据。针对检验检疫业务数据的非线性特征，介绍了基于流形学习方法的大数据分析技术，探讨了其在检验检疫业务中应用的可能性。

关键词：大数据; 检验检疫; 流形学习; 数据分析

中图分类号：TP391.4 文献标志码：A 文章编号：1006-8228（2015）07-09-04

Research on manifold learning based big data analysis with the application to inspection and quarantine

Xu Shenglin， Wei Yinghao， Wu Jiying

（Information Center of the General Administration of Quality Supervision Inspection and Quarantine of the People's Republic of China， Beijing 100088， China）

Abstract： With the development of big data， some data analysis techniques were proposed to extract the meaningful information from mass data. From 2000， there is a great development of the inspection and quarantine informatization. The construction pattern of electronic declaration， electronic supervision， and electronic release was established， based on the integrated business management system of CIQ2000. A large amount of structured and unstructured data with different source， variety， cycle， and purpose is accumulated. In this paper， we discuss the manifold based big data analysis technique， which is suitable for the nonlinear property of inspection and quarantine data. Meanwhile， we analyze the application of manifold to inspection and quarantine business.

Key words： big data; inspection and quarantine; manifold learning; data analysis

0 引言

随着信息技术、计算机技术和网络技术的不断发展，人类社会迅速迈入了一个崭新的数字时代。利用大量的信息平台和网络建设，改善了信息的交互、存储和管理效率，从而生成、传播出大量的数据，称为“大数据”。一般认为大数据具有四个基本特征：数据体量大（Volume）、价值密度低（Value）、来源广泛特征多样（variety）、增涨速度快（Velocity）。简言之，大数据可以理解为海量的、对于社会生活各个层面都更加有用的数据资产。

大数据的概念在社会上已经广泛流传多年，而在检验检疫行业的应用才刚刚起步。在实际工作中，大数据与检验检疫业务关系密不可分。2014年全国出入境法检货物共994.32万批次，货值达1.2万亿美元。自检验检疫综合业务管理系统（CIQ2000）在2000年上线使用以来，经过十几年的积累，检验检疫货物信息数据量达到亿级。随着我国经济规模的不断扩大，检验检疫业务的不断发展，这个数据将以更快的速度递增。

大数据处理是伴随着数据挖掘技术的不断发展而提出的，其核心问题是对大数据进行分析。大数据分析一方面依赖于优化的复杂大规模数据处理技术，另一方面是模式提取的程序、标准和规范。大数据不仅是指数据量大、数据类型复杂，更重要的是数据中模式结构复杂、信噪比低。特别是在检验检疫行业中，存在大量非结构化数据，既包括检验检疫业务数据、等级评价数据，也包括商品种类、国别等辅助数据。科学的分析和利用检验检疫大数据，需要更多角度的模式探测和更可靠的模型构建，无论是运用模型生成规则还是直接利用预测结果，都需要更加规范的设计和分析。

本文从数据分析的角度探讨大数据在检验检疫行业中的应用价值。首先回顾数据挖掘的概念和基本流程，然后介绍常用的针对大数据的降维方法，特别是基于流形学习的方法。最后对大数据分析方法在检验检疫行业中的应用进行探讨。

1 数据挖掘的概念和基本流程

一般认为，数据挖掘的概念最早由Fayyad在KDD会议上提出[1]，定义为：一个自动或半自动化地从大量数据中发现有效的、有意义的、潜在有用的、易于理解的数据模式的复杂过程。

数据挖掘的核心任务是探索数据特征并建立合理的数据关系。根据最终建立的数据关系特点，可分为有监督的学习和无监督的学习。有监督的学习是指对有明确预设目标的数据学习和建模，主要包括分类、识别和预测三方面功能。无监督的学习目的是分析并模拟数据的概念结构，主要包括关联分组、聚类和可视化三方面。在无监督学习中，没有明确的标示变量用于表达目标概念，主要任务是从大量数据中提取潜在的可能模式，探索并建立数据联系和内在结构。

数据挖掘主要包括六个基本流程[10]。

⑴ 问题识别

问题识别是从大量的复杂数据中，找到数据挖掘及分析要解决的核心问题。针对核心问题去建模和试验模拟才能找到有效的数据分析方案。识别问题时，重点明确问题属性，兼顾问题的整体性、长期性、系统性和风险性要求。

⑵ 数据理解

数据理解是确认待解决的核心问题与掌握的数据间的匹配程度，包括对数据价值的理解和对数据质量的理解两方面。在实际应用过程中，获取的数据可能存在大量的过期、无效数据，以及不一致、重复、不完整、不稳定的数据。

⑶ 数据准备

为数据分析的需要，要将所获得的有价值的数据汇集在一起，形成数据库或数据集市。以检验检疫行业数据为例，需要将不同系统获取的数据整合在一起。而各个检验检疫系统，例如CIQ2000系统、通关单联网核查系统、原产地业务系统等相对独立，数据来源、数据记录格式、数据级别和命名规则也存在差异。因此在数据准备阶段需要完成数据抽取、转换和装载三方面的工作。

⑷ 建立模型

数据建模是整个数据挖掘流程中最核心的环节，目的是使用机器学习算法对大量的数据进行建模分析，从而建立对数据最终待解决核心问题最合适的模型。建立模型阶段除了需要掌握先进的计算机技术、机器学习算法，还需要有经验丰富的业务人员。分析人员的业务知识和经验有利于发现数据间的潜在关系，剔除随机异常数据等。

⑸ 模型评价

模型建立完毕后，需要对模型进行功能性评价和服务性评价。所谓功能性评价是指模型对任务完成的质量，包括精准性评价和稳健性评价，常用方法为增益图法和ROC曲线法。服务性评价通常是指实际服务的能力，经技术验证有效的模型并不一定是正确的模型。因为在实验环境下建模通常存在大量的假设，在实际应用中会出现偏差。用户体验质量（Quality of Experience， QOE）是一种以用户认可程度为标准的服务性评价。

⑹ 部署应用

模型建立并经过评价验证后，可以部署应用。例如进行数据分类、数据预测、数据评价等工作。部署应用通常与一定的数据展现方式紧密结合在一起。

2 基于流形学习的大数据分析技术

本文主要探讨数据准备阶段的工作，就是利用先进的流形学习算法进行数据降维及分析。传统的数据降维方法中最常用的是主元分析（Principal Component Analysis，PCA）[2]和线性鉴别分析（Linear Discriminant Analysis，LDA）[3]。PCA是一种无监督的学习算法，是最小方差准则条件下基于数据重构的最优描述方法，其任务就是找到数据变化的主要方向，并以这些方向为坐标轴构建一个低维子空间。利用PCA可以将特征的维数从表观数据数量减小到特征数目。LDA是一种有监督的学习算法，LDA充分利用类别信息，寻找能够最大化类间离散度，同时最小化类内离散度的投影方向。

PCA和LDA这类传统的降维方法原则上只对近似于线性分布的数据有意义，即要求高维输入空间中的样本处在某个低维的线性子空间内。而在实际应用过程中，特别是像检验检疫这样数据来源复杂的行业问题中，输入样本无法满足线性分布，而是呈现非线性的“流形”分布。为了解决这类非线性问题，提出了流形学习算法。

流形学习的任务是从高维采样数据（大数据）中发现其原本所在的低维流形结构，并得到相应的映射，以实现维数降低。流形学习要求我们从数据集的整体，从内在几何特性来分析数据，从而获取与之相一致的低维参数化。进一步讲，流形学习就是要找到产生观察数据的内在规律，或者说从现象发现本质。这意味着流形学习比传统的降维方法更能体现事物的本质，更有利于对数据的理解和进一步处理。从统计角度看，流形学习不依赖于数据集的先验假设（如独立性假设、正态分布假设等），而是在更一般的意义下去完成针对数据集的各项任务，如降维，数据挖掘等。

近年来，科学家们提出了大量基于流形学的数据分析算法。本文对局部线性嵌入算法（Locally Linear Embedding，LLE）[4]、等距映射算法（ISOMAP）[5]、拉普拉斯特征映射算法（Laplacian eigenmaps，LE）[6]进行简单介绍。

⑴ 局部线性嵌入算法

假设有N个取样自某个平滑流形的m维的数据样本xi∈Rm（i=1，2，…，N），而且N足够大以保证流形被很好地取样。LLE的基本假设是：采样自流形的每个数据点和它的近邻点位于或者近似地位于一个局部的线性超平面。这样每个点就可以用其邻域点的线性组合来近似，而线性组合的系数可以用来描述这些点所在的局部几何结构。这样的假设符合流形定义中关于局部欧拉性的描述，所以是有意义的。在进行流形的低维展开的时候，每一个原始的数据点被映射到m'维欧式空间Rm'中（m'<

⑵ 拉普拉斯特征映射算法

拉普拉斯映射在降维时保持原始样本在局部的相对距离。它的基本思想是在高维空间中距离较近的点投影到低维空间中的像也应距离较近。LE和LLE都是基于局部特征的算法，求解的都是稀疏矩阵的广义特征值问题，具有相同的待定参数。图的拉普拉斯矩阵实际上就是连续流形上拉普拉斯-贝尔特拉米算子。

⑶ 等距映射算法

ISOMAP算法建立在多尺度变换基础之上，其目的是保持数据流形内在的几何性质，即流形上每两点之间的测地线距离。与LLE和LE不同，ISOMAP是基于全局特征的算法，因此适用于学习内部平坦的低维流形，但不适用于学习有较大内在曲率的流形。另外，ISOMAP中的参数选择对最终算法的结果影响很大。邻域过大，会造成流形展开后不同邻域的点混杂在一起;而邻域过小，虽然能够保持整体的内在几何结构，但低维展开后会产生“空洞”现象，或使最短路径算法重构的图不连通。因此，参数选择问题影响了ISOMAP算法在实际问题中的应用效果。

3 检验检疫行业的大数据分析探讨

自2000年以来，中国电子检验检疫建设得到了较快发展，先后完成了中国电子检验检疫业务平台和网络建设[7]。实现了检验检疫与企业、检验检疫机构之间、检验检疫与海关等部门的数据交换。完成了总局与35个直属局广域网和699个检验检疫分支机构的局域网建设。直属局建立了以双主机、双存储、双线路为基础的区域集中运作环境。确定了以CIQ2000综合业务管理系统为基础，以电子申报、电子监管、电子放行为主要内容的中国电子检验检疫建设格局，尤其是进出境货物电子监管等系统的应用，奠定了对检验检疫业务工作全过程电子化管理的基础。

CIQ2000综合业务管理系统作为该体系的核心系统，在进出境货物受理报检、施检登记、签证放行和业务统计等的电子化管理中，起到了重要的支撑作用。在整个检验检疫信息系统架构中，包含了大量来源不同、类型不同、时间周期不同、用途不同的数据。从数据分析的角度，这些数据可主要划分为以下几种。

⑴ 业务相关数据

检验检疫业务工作流程中所涉及到的数据包括报检数据、签证数据、审单数据等。这些业务数据也包含不同类型，例如国别数据、货物种类数据、产地数据、编号数据和计收费数据等。这些数据是直接由日常业务操作产生的，数据量大，更新速度快，种类繁多，且其中会夹杂大量的错误数据、无效数据等，既包含结构化数据，也包含大量非结构化数据。

⑵ 监督管理类数据

监督管理是实现检验检疫工作“前推、后移”的业务模式改革的基础工作。依据法律法规、规章和国家强制性规范，以及各方面的质量及检疫信息，提出对某一企业特定产物的具体的检验检疫要求，以实现对产品的电子监管。主要分为体系监管、出口生产批监管、质量反馈及跟踪和体系监管措施调整。其中包括企业类别、产品类别、监管结果等各类数据。

监督管理类数据主要是由针对报检批后续监管和体系监管产生的，数据类型较为固定，更新速度较快，一般为非结构化数据。

⑶ 支撑数据

支撑数据主要是指各类检验检疫证单格式、规格、种类、证单用纸、用途以及其填制内容，还包括与国外相关机构签订协议所涉及的各类证单、标识封识以及签证印章等。支撑类数据不是由日常业务操作产生的，因此较为固定，一般都为非结构化数据。

⑷ 风险预警数据

风险预警类数据来源包括施检、体系监管、风险监控和国外通报等。现有系统中的风险预警数据通过手工录入和系统中不合格施检数据自动转入两种方式。风险预警数据也随着日常业务操作不断产生，但变化周期不会像业务数据那么频繁，也主要包括非结构化数据。

⑸ 其他辅助数据

在检验检疫业务系统中还包含了大量其他辅助数据，例如企业档案数据、业务档案数据、注册备案管理数据等，其中每一类数据又是由大量种类复杂的数据项组成的。其变化周期各不相同，同时包含结构化和非结构化数据。

综上所述，检验检疫行业中蕴含大量数据，但数据来源广泛，且以非结构化数据为主，数据产生速度快，其中包含的有效信息较少。因此，如需有效利用这些数据，首先需要对数据进行分析和处理，将高维空间中的原始数据降维到低维空间中，从而使用传统的数据分析工具进行信息抽取。这些高维空间中的数据显然不满足线性条件约束，因此可以应用现代的基于流形学习的降维算法进行处理。

4 大数据在检验检疫行业中应用思考

目前，已经有一些大数据技术应用于检验检疫行业[8-9]，例如利用大数据信息进行质量溯源、企业信用评价、业务互联互通、业务规模趋势预测，以及运用大数据进行工作量评估等。

⑴ 质量溯源

在综合业务管理系统CIQ2000的基础上，全国各地的检验检疫机构陆续建立了一些用于产品溯源管理的信息系统，例如：深圳检验检疫局研发的“供港蔬菜检验检疫监管系统”，三明检验检疫局开发的“出口番茄制品安全身份认证与生产供应链系统”，苏州检验检疫局建立的“进口酒类监管智能化管理平台”等，分别实现了对进口、出口产品信息的溯源管理。这些系统在一定范围内实现了对产品历史数据的追踪与管理，方便了检验检疫机构和消费者了解产品信息。

然而，这些系统还停留在区域化的阶段，数据间无交互，没能实现真正的大数据统一管理。建立统一的产品质量信息溯源系统，真正实现产品相关信息从生产到进出口的全流程管理，同时利用现代的数据分析技术，提取其中的有效信息，应用于日常管理，将是今后的发展方向。

⑵ 企业信用评级

为全面有效地掌握及整合企业信用信息，质检总局建设了进出口企业信用管理系统，制定了企业信用管理办法及评分标准。通过对进出口企业检验检疫信用等级实施规范化、定量化、科学化的考核，改变以人的主观判断来确定企业信用等级的方式，促进进出口企业信用意识和产品质量的提高，同时提高一线检验检疫工作效率。

传统的信用等级评价方法是根据与检验检疫相关的信用指标设定评定标准，然后建立专家系统进行主观或者客观的综合评价。近年来，为准确、客观、科学的进行企业信用评价，国内外很多学者作了大量研究工作，将数据分析、预测模型引入信用评级。弱化了人为因素对预测结果的影响，同时提高了评价结果的准确性、科学性。今后，建立模型统一、评价指标统一的信用评级模型将有利于检验检疫工作的科学化、规范化管理。

⑶ 信息互联互通

强化大通关协作机制，推进口岸管理相关部门信息互换、监管互认、执法互助，是当前检验检疫业务工作重点。信息时代，离不开共享共用。推动检验检疫与其他口岸查验部门间的合作，实现进出境产品信息的共享共用，试行单证无纸化和出入境检疫指令快速放行，推进国际贸易便利化。当然，在实现信息互联互通的同时，确保检验检疫网络及信息系统安全是首要任务。

5 总结

信息时代，离不开数据的共享和利用，检验检疫行业在过去十几年快速发展的基础上，已经积累了大量有效的数据。科学、合理的利用这些数据，提取其中蕴含的丰富信息，将会对检验检疫业务发展起到推动作用，将检验检疫事业不断推向新的高度。

参考文献：

[1] Usama M. Fayyad， Ramasamy Uthurusamy （Eds.）： Proceedings of

the First International Conference on Knowledge. Discovery and Data Mining[C]， Montreal， Canada，1995.8：20-21

[2] M. Turk， A. P. Pentland， Face recognition using eigenfaces， IEEE

Conference on Computer Vision and Pattern Recognition[C]. Hannover， Germany，1991：586-591

[3] P. N. Belhumeur， J. P. Hespanha， D. J. Kriegman， Eigenfaces vs.

Fisherfaces： recognition using class specific linear projection[J]， IEEE Transactions on Pattern Analysis and Machine Intelligence，1997.19（7）：711-720

[4] T. Roweis， L. K. Saul. Nonlinear dimensionality reduction by

locally linear embedding[J].Science，2000.290：2323-2326

[5] J. B. Tenenbaum， V. D. Silva， J. C. Langford， A global geometric