基于近红外光谱技术和人工神经网络算法的佐匹克隆片定量分析

2019-01-15王小亮黄萍

安徽医药 2019年1期

王小亮，黄萍

佐匹克隆片常规剂量具有镇静催眠和肌肉松弛作用，作用于苯二氮卓受体，可用于各种失眠症。作为一种安全性较高的速效催眠药，佐匹克隆能延长睡眠时间，提高睡眠质量，减少夜间觉醒和早醒次数，临床应用广泛[1]。

近红外光谱检测(Near Infrared Spectrum，NIR)技术作为一种快速、简便、无损检测方法，极大简化了样本测试环节，可以用于石化、农业、食品和药品领域[2]。近年来已广泛用于药品快速检验及过程分析领域，但其建模方法多基于偏最小二乘算法[3-6]。

人工神经网络(Artificial Neural Networks，ANN)是一种模拟大脑神经突触联接结构实现信息处理的数学运算模型，由大量进行并行计算的基本单元(神经元)相互连接组成。神经网络的功能与信息处理能力全部由神经元之间的相互连接(权值)来体现，神经元之间的互连体现了信息的分布式存储，各神经元连接权值的动态修正体现了网络的学习进化过程，神经网络通过计算得到的输出体现了网络的联想记忆功能[7-10]。主要分为两个步骤：第一步为正向传播阶段，对于给定的网络输入，通过正向传播得出各个单元的实际输出;第二步为误差反向传播阶段，计算输出层各单元的输出误差项，根据这些误差逐层向输入层方向逆向传播，调整各个连接权值。通过两个步骤的反复迭代，直到输出层的误差项最小。见图1。

图1 神经网络功能示意图

本文将近红外检测与人工神经网络建模相结合，通过近红外在线检测获得样本的光谱数据，然后通过神经网络快速建模，可以将近红外检测的高效性与神经网络的高准确性、高鲁棒性相结合，实现对样本的快速定量检测[11-12]。

1 材料与方法

本研究起止时间2016年6月至2017年3月。

1.1仪器Matrix-F近红外光谱仪(德国Bruker公司，配有1.5 m长固体光纤探头);铟镓砷(InGaAs)检测器;OPUS 5.5光谱分析软件(德国Bruker公司);UV-2600紫外可见分光光度计(日本岛津公司);BP211D电子分析天平(德国赛多利斯公司);MATLAB R2010a商业数学软件(美国MathWorks公司)。

1.2样品5个厂家生产的84批佐匹克隆片，均为陕西省食品药品检验所抽验样品;佐匹克隆对照品(中国食品药品检定研究院，生产批号100872～200801，规格：50 mg)。

1.3方法

1.3.1含量测定依据《中国药典2015年版二部》，采用紫外分光光度法测定佐匹克隆的含量[13]。84批样品含量测定结果均以%表示。见表1。

表1 建模选用的样本数据

1.3.2NIR光谱测定及预处理以漫反射方式采集样品的NIR光谱。以固体光纤探头抵住片剂采集样品的NIR漫反射光谱。选择未带刻痕、一面作为光谱采集部位。光谱采集条件：扫描范围为(12 000～4 000)/cm，分辨率8/cm，室温，扫描次数64次，每批样品测定6片作为原始光谱，再求平均光谱作为建模光谱。如图2所示。

图2 经平均后的近红外建模光谱

一阶求导及矢量归一化的光谱预处理方法可有效地校正光源强度波动及人为因素的影响，消除光程或样品厚度带来的影响，更能真实细致地反映与活性成分含量相关的光谱信息。同时，通过与原始光谱、一阶求导预处理、二阶求导预处理所建立的模型相比，采用一阶求导及矢量归一化预处理光谱建立的神经网络模型具有相对更高的预测精度，因此选用一阶求导及矢量归一化方法对光谱进行预处理，处理后的光谱如图3所示。由于光谱在前端很平，基本上没有峰值出现，进行建模时无法提供有效的样本信息，而光谱在后端存在较大的系统噪声。为了保证光谱包含足够丰富的样本信息，同时又尽可能减小系统误差对建模精度的影响，建模时选取(10 000～4 200)/cm谱段，每组样本包含778个数据点。

图3 经一阶求导及矢量归一化后的近红外建模光谱

1.4统计学方法利用MATLAB R2010a商业数学软件(美国MathWorks公司)进行红外图谱的数据信息处理。主要方法是：以一阶求导对红外光谱做矢量归一化的光谱预处理，而后对数据进行主成分分析。

2 结果

2.1主成分分析结果经过预处理后的光谱数据每个样本包含778个数据点，直接进行神经网络建模会导致模型输入层节点过多，因此，为了数据降维和消除重复的光谱信息，首先对84组样本光谱数据进行主成分分析[14-16]。经主成分分析得出的前20个主成分对应的特征值和贡献率、累计贡献率见表2。

表2 前20个主成分对应的特征值和贡献率、累计贡献率

由主成分分析结果可知，第一个主成分的特征值为494.96，其贡献率为63.62%，即其对总体信息的解释程度为63.32%;第二个主成分的特征值为150.57，其贡献率为19.35%，即其对总体信息的解释程度为19.35%。按照主成分确定的一般原则，当其特征值大于1或累计贡献率达到85%以上时即可，综合考虑确定建模选取的主成分为10个，其对总体信息的累计代表程度为99.07%。

图4 选用的神经网络模型构型

2.2人工神经网络建模与分析图4给出了建模选用的神经网络模型示意图，模型为10(输入节点)-6(隐含层节点)-1(输出节点)三层神经网络，输入样本集包括三部分：训练集、验证集和测试集。训练集用于网络训练，验证集用于在网络训练过程中防止训练过拟合，即当训练集误差继续下降，但验证集误差还是上升时停止网络训练，而测试集用于对训练好的网络进行测试，以检验网络的推广能力，样本的划分采用随机取样方法。

进行神经网络建模时，选取所有84组样本数据进行网络建模，建模所采用的参数见表3。

表3 神经网络建模模型参数

在进行神经网络建模前，首先对样本进行了归一化处理，将样本数据转换到[-1，+1]区间内，转换方法如下：

y=2×(x-xmin)/(xmax-xmin)-1

式中，x表示单个样本值，xmax和xmin分别为样本数据列的最大值和最小值。

图5给出了神经网络训练次数与误差均方值MSE的关系曲线，随着训练次数的增加，训练集、验证集和测试集的误差均方值均有所下降，当训练次数达到12次时，训练集的误差均方值减小到2.75e-7，小于设定的训练目标误差值1e-5，神经网络停止训练，建模完成。训练结束时，对于验证集的误差均方值为1.02e-1，测试集的误差均方值为5.71e-2。

图6 样本实测值与模型输出值相关性：A为训练集;B为验证集;C为测试集;D为全样本

图6给出了样本实测值与模型预测值相关性曲线，所建立的神经网络模型对训练集、验证集和测试集的回归系数分别为1.000、0.992和0.973，而神经网络模型对整个样本集的回归系数则达到了0.994，说明依据神经网络模型所预测出的模型预测值与样本实测值之间存在极高的相关性，模型预测结果具有极高的可信度。

从84组样本中选取10组样本，代入神经网络模型，进行了模型预测值与样本实测值对比如表4所示，模型预测值与样本实测值的最大偏差为2.85%，最小偏差为0.02%，平均偏差为0.70%，具有相当高的预测精度。

表4 模型预测值与样本实测值的对比

3 讨论

将近红外光谱测量方法与人工神经网络建模方法相结合建立了佐匹克隆片的定量分析模型。在主成分分析的基础上，利用84组样本对神经网络模型进行了训练，并对模型进行了预测验证。模型预测值与样本实测值的对比结果显示，模型预测结果与实测结果很好吻合，其最大偏差为2.85%，最小偏差为0.02%，平均偏差为0.70%。经训练的网络模型可以用于对佐匹克隆片含量的快速准确预测。

(本文图5见插图1-2)