基于互信息和贝叶斯算法的天然气合成润滑油鉴别技术
2023-10-19张伟亚宋保靓陈向阳晏金灿谭智毅
张伟亚 宋保靓 陈向阳 晏金灿 谭智毅
1.深圳海关工业品检测技术中心 2.深圳市检验检疫科学研究院 3.中山大学惠州研究院 4.广州海关技术中心
润滑油是发动机、变速箱、传动机构等机械设备中必不可少的物质,其质量直接关系到设备的使用寿命和性能。润滑油的种类繁多,其中合成润滑油和矿物油基润滑油是最常见的两种润滑油基础油。合成润滑油是通过化学合成或精炼加工的方法获得的,其工艺复杂,炼制成本高昂,但是其性能卓越,包括高温稳定性、低温流动性和抗氧化性等方面均优于矿物油基润滑油。天然气合成润滑油(以下简称GTL润滑油)是通过将天然气中的烃类组分加氢裂解反应制成,不含硫、氮和芳烃化合物等有害成分,具有良好的生物降解性能和环保性能。同时,其物理性质和化学性质也非常稳定,能够在高温、高压和恶劣工作条件下保持良好的润滑性能,从而延长设备寿命,降低维修成本。因此,虽然成本相对较高,但由于其出色的性能和环保性能,在市场上仍有一定的竞争力[1]。此外,合成润滑油和矿物油基润滑油属于不同的税则[2],税率有较大的差异:矿物油基润滑油属于税目27.10,进口关税为6%;合成润滑油属于税目34.03,进口关税为10%。鉴于此,为保护税收[3],GTL润滑油的准确鉴别已成为一项急需解决的问题。
目前,润滑油的鉴别主要采用红外光谱、电化学、光谱等检测技术[4-10],通过分析不同种类润滑油之间的差异,从而对润滑油进行鉴别。但是这些方法仅考虑单一参数、易受干扰、结果准确率不高、适用范围窄。随着计算机技术的发展,基于数理统计的深度学习、数据挖掘方法得到广泛应用,这种方法具有参数多、不容易受到干扰等特点,尤其适用于润滑油鉴别工作。但是,目前类似的GTL润滑油鉴别技术的研究却仍未见报道。因此,本研究基于互信息和贝叶斯算法,探索一种新的GTL润滑油鉴别技术,以提高润滑油鉴别的准确性和可靠性,为润滑油行业提供更可靠的鉴别方法。
1 实验部分
1.1 仪器设备
DR-A1型折光仪(ATAGO公司);2400-Ⅱ型元素分析仪(ATAGO公司);ZF-1型紫外灯(上海楚柏实验室设备有限公司);GCMS-QP Plus型气相色谱-质谱联用仪(日本Shimadzu公司);SYP1016-Ⅳ型倾点分析仪(上海神开石油化工装备股份有限公司);SYP1003-ⅥA型黏度分析仪(上海神开石油化工装备股份有限公司);KD-H1120型蒸发损失测定器;KD-H1120型(长沙卡顿海克尔仪器有限公司);SYP1001B-Ⅴ型开口闪点分析仪(上海神开石油化工装备股份有限公司)。
1.2 试剂耗材
硅胶(GF254, 200目);正己烷、石油醚、乙酸乙酯(上海国药),均为分析纯。
1.3 实验样品
GTL润滑油(编号01~12)和矿物油基润滑油(编号13~25)样品来源于工厂定制及实验室自行配制,作为已知样品用来训练模型;GTL润滑油(编号26、27)和矿物油基润滑油(编号28、29)样品来源于市场购买,作为未知样品用来验证模型的准确度。
1.4 润滑油组分的分离
润滑油由基础油和添加剂组成,添加剂配方的多样化或在一定程度上干扰基础油性能指标的分析结果。为保证分析的可比性、准确性与可靠性,对润滑油样品进行组成分离,分离出非极性组分和极性组分,非极性组分即是润滑油的基础油。
利用柱色谱对润滑油进行基础油和添加剂的分离。在长1.5 m、直径10 cm的色谱柱中加入500 g硅胶,装柱后加入10 g润滑油样品,再加入500 mL的正己烷或石油醚进行洗脱,流量为1 mL/min;利用薄层色谱法跟踪,当254 nm紫外灯观察到薄层上出现明显吸收斑痕时停止分离。收集非极性组分,将非极性组分浓缩作为基础油待测样。
1.5 理化参数的测试方法
通过采集实验样品基础油的常见理化参数测试数据,如烃类组成(GC-MS法)、折射率、浊点、黏度、蒸发损失、闪点等,用于筛选特征指标和计算贝叶斯算法的先验概率,从而最终建立GTL润滑油的分类预测模型。
1.5.1烃类组成的检测方法
1.5.1.1 GC条件
色谱柱:Rtx-5MS,0.25 um×0.25 mm×30.0 m。载气:高纯氮气。柱流量:1 mL/min。检测器:质谱检测器。进样口温度:350 ℃。进样方式:分流进样。进样分流比:10∶1。进样量:1.0 μL。柱温:100 ℃(2 min)。
1.5.1.2 MS条件
质量范围:60~700 amu。电离方式:EI。电子能源:70 eV。接口温度:340 ℃。离子源温度:230 ℃。四级杆温度:150 ℃。扫描方式:scan。
1.5.2其他项目的检测方法
测试项目及采用的检测方法如表 1所列。
表1 测试项目及采用的检测方法测试项目检测标准[10-19]备注折射率SH/T 0724-2002《液体烃的折射率和折射色散测定法》等效采用ASTM D1218-1999C、H、N、S含量NB/SH/T 0656-2017《石油产品及润滑剂中碳、氢、氮的测定 元素分析仪法》等效采用ASTM D5291-10(2015)GC-MS分析NB/SH/T 0606-2019《中间馏分烃类组成的测定 质谱法》等效采用ASTM D2425-2017倾点GB/T 3535-2006《石油产品倾点测定法》等效采用ISO 3016-1994浊点GB/T 6986-2014《石油产品浊点测定法》等效采用ASTM D2500-201140 ℃和100 ℃运动黏度GB/T 265-1988《石油产品运动粘度测定法和动力粘度计算法》黏度指数GB/T 1995-1998《石油产品粘度指数计算法》等效采用ASTM D2270-1993蒸发损失NB/SH/T 0059-2010《润滑油蒸发损失的测定 诺亚克法》等效采用ASTM D5800-2008开口闪点GB/T 3536-2008《石油产品闪点和燃点的测定 克利夫兰开口杯法》等效采用ISO 2592-2000
2 结果与讨论
2.1 已知样品理化参数的检测结果
按照第1.5节中的测试方法对第1.3节的样品进行检测,结果见表 2、表 3。
表2 已知样品烃类组成检测结果样品编号基础油类型MS丰度比71856768698182839697w(链烷烃)/%01GTL润滑油1.000 00.679 70.085 40.046 40.353 90.110 90.071 30.236 60.072 00.244 257.9102GTL润滑油1.000 00.709 00.060 50.035 20.219 60.112 10.056 60.212 10.084 50.252 662.3203GTL润滑油1.000 00.644 80.062 60.032 80.298 90.060 40.049 90.198 00.058 20.217 862.6904GTL润滑油1.000 00.770 60.072 90.035 80.207 10.146 80.075 70.221 60.093 50.191 462.8905GTL润滑油1.000 00.647 90.095 30.043 80.386 30.140 90.081 90.299 80.086 80.326 353.0106GTL润滑油1.000 00.774 40.054 40.033 10.300 30.055 80.050 60.211 00.065 60.250 463.4707GTL润滑油1.000 00.725 30.065 20.035 30.315 80.074 80.051 40.228 70.075 80.251 061.1108GTL润滑油1.000 00.687 50.052 20.031 60.290 60.054 20.043 20.187 60.054 70.210 064.6209GTL润滑油1.000 00.895 50.097 80.045 90.365 30.193 40.091 10.287 80.097 50.354 055.2910GTL润滑油1.000 00.875 90.070 70.032 60.191 70.127 00.043 60.236 40.078 40.254 964.4411GTL润滑油1.000 00.683 20.084 90.046 00.348 40.112 30.071 50.236 00.072 80.242 260.4012GTL润滑油1.000 00.727 20.056 10.031 80.269 70.069 50.043 30.197 90.059 70.219 464.5313矿物油基润滑油1.000 00.652 70.192 80.067 70.563 40.303 80.124 70.448 50.145 80.509 941.2214矿物油基润滑油1.000 00.632 20.137 50.054 00.502 20.202 80.126 20.399 00.123 20.440 145.1215矿物油基润滑油1.000 00.626 80.129 20.051 90.464 00.185 30.092 30.337 40.111 80.401 047.8516矿物油基润滑油1.000 00.649 70.128 40.052 70.445 70.194 70.091 70.331 70.114 90.398 448.4117矿物油基润滑油1.000 00.633 70.144 10.057 50.496 30.226 90.109 90.399 70.145 10.459 744.4918矿物油基润滑油1.000 00.628 80.186 20.065 80.580 90.313 40.133 70.471 10.164 50.590 539.3919矿物油基润滑油1.000 00.748 80.199 40.068 20.578 80.351 50.157 10.500 50.169 20.566 340.2920矿物油基润滑油1.000 00.661 90.009 80.194 80.066 40.313 90.130 40.455 30.161 40.534 447.1021矿物油基润滑油1.000 00.663 90.111 40.053 60.401 80.119 80.155 00.334 70.089 10.317 951.2422矿物油基润滑油1.000 00.663 30.092 50.044 70.371 60.126 00.074 60.273 00.086 80.306 354.7423矿物油基润滑油1.000 00.642 10.164 20.060 60.531 70.251 40.125 50.422 90.134 10.473 743.1724矿物油基润滑油1.000 00.641 40.136 50.055 20.471 90.211 40.101 10.366 90.130 50.430 146.4525矿物油基润滑油1.000 00.660 50.189 70.066 40.580 40.323 50.139 90.478 90.165 70.584 139.84
表3 已知样品其他项目检测结果样品编号基础油类型折射率(20 ℃)w(C)/%w(H)/%w(N)/%w(S)/%倾点/℃黏度(40 ℃)/(mm2·s-1)黏度(100 ℃)/(mm2·s-1)黏度指数蒸发损失/%开口闪点/℃01GTL润滑油1.47185.1214.8800-3418.24.11287.422102GTL润滑油1.48685.1314.8700-3617.84.11326.822503GTL润滑油1.46285.0015.0000-3318.24.11286.922804GTL润滑油1.48485.1514.8500-3817.24.01336.522605GTL润滑油1.46584.9915.0100-3816.23.81276.522806GTL润滑油1.46785.0914.9100-3717.84.01247.521907GTL润滑油1.46885.0214.9800-3518.24.11286.923208GTL润滑油1.47485.1714.8300-3030.05.71367.122209GTL润滑油1.46985.1214.8800-2843.07.61457.323110GTL润滑油1.47685.1414.8600-4013.83.51376.822511GTL润滑油1.45385.1514.8500-3513.83.41247.321912GTL润滑油1.45585.1714.8300-3613.33.31217.522313矿物油基润滑油1.48785.1014.9000-1448.67.41159.820914矿物油基润滑油1.48485.0614.9400-1257.38.11109.621015矿物油基润滑油1.47985.0314.9700-1258.68.31128.721416矿物油基润滑油1.48585.1614.8400-1848.56.89310.220517矿物油基润滑油1.48885.1514.8500-1926.85.11229.020918矿物油基润滑油1.48285.0314.9700-1736.16.11169.021119矿物油基润滑油1.48985.0514.9500-1925.84.91159.520920矿物油基润滑油1.48785.1314.8700-1826.85.112210.821021矿物油基润滑油1.48285.0414.9600-1355.38.11108.921422矿物油基润滑油1.48185.0314.9700-1539.86.51169.520523矿物油基润滑油1.48385.0514.9500-2418.33.91069.220124矿物油基润滑油1.48685.1514.8500-2516.13.610510.220025矿物油基润滑油1.48185.0314.9700-2215.53.61158.8208
测试结果表明,虽然各项理化参数之间存在潜在的相关性,但它们之间并不呈现直接的因果关系,也没有明确的影响规律。例如,GTL润滑油的链烷烃含量(质量分数为53.01%~64.62%)整体上来说比矿物油基润滑油(质量分数为39.84%~54.74%)高,但两者之间存在交叉重叠,无法通过该参数直接做出准确的分类判断。其他参数也具有类似的特性。因此,为了鉴别GTL润滑油,需要建立一种综合考虑多种特征指标参数数值的分类判断方法,以避免单一参数数值的交叉重叠影响。
2.2 特征指标筛选模型的建立
2.2.1特征指标算法的选择
筛选特征指标的算法可以多种多样,具体的实现方式会根据数据类型、数据规模、数据分布等因素而有所不同,如方差分析、卡方检验、互信息、信息增益、基尼指数[20]。
互信息是衡量两个变量之间关联程度的指标,它可以用来评估两个变量之间的非线性关联性。在贝叶斯分类中,选择关键指标就是为了找到和分类结果最相关的变量,而互信息可以捕捉到变量之间的非线性关系,从而更准确地找到关键指标。此外,互信息算法不需要假设变量之间的线性关系或者正态性,所以,更适合处理非线性问题。因此,本研究采用互信息方法来筛选特征指标。
2.2.2互信息算法原理
互信息的计算是基于信息熵的概念[20]。假设X和Y是两个随机变量,它们的联合概率分布为P(X,Y),边缘概率分布分别为P(X)和P(Y)。则X和Y的互信息可以定义为:
(1)
式中:I(X;Y)为由X引入而使Y的不确定度减小的量;Σx∈X为X中的每个取值x进行求和;Σy∈Y为Y中的每个取值y进行求和;log表示以e为底的对数。
互信息表示了X和Y之间的信息量,即如果知道了X的取值,那么能够对Y的取值做出多大的贡献。如果X和Y独立,则它们的互信息为0,表示它们之间没有信息量。
在特征选择中,可以将互信息作为特征重要性的度量,选择与目标变量相关性高的特征作为关键特征。
2.2.3特征指标的筛选结果
按照互信息算法建立模型,并筛选特征指标,计算结果见表 4。
表4 互信息计算结果测试项目互信息得分测试项目互信息得分开口闪点0.712 7 MS丰度比960.471 2 蒸发损失0.712 7 折射率(20 ℃)0.433 6倾点0.644 7 MS丰度比810.349 8MS丰度比680.615 7 MS丰度比850.287 1链烷烃含量0.570 3 40 ℃黏度0.183 0MS丰度比830.562 6 100 ℃黏度0.167 8黏度指数0.511 4 C含量0.109 4MS丰度比970.506 6 H含量0.058 9MS丰度比670.501 9 MS丰度比710.056 0MS丰度比690.484 2 N含量0.039 3MS丰度比820.482 2 S含量0.000 0
根据表4的结果,经综合考虑,舍弃元素C、H、N、S含量指标,将烃类组成(GC-MS法)、浊点、倾点、40 ℃和100 ℃运动黏度、黏度指数、蒸发损失、开口闪点定为GTL润滑油分类预测模型的特征指标。
2.3 分类预测模型的建立
2.3.1分类预测算法的选择
分类预测算法是指根据已有的数据和标签,学习出一个分类模型,然后用该模型对新的数据进行分类的算法。常用的分类预测算法有很多,例如k-近邻 (k-NN) 算法、逻辑回归算法、支持向量机 (SVM) 算法、决策树算法、随机森林算法、朴素贝叶斯算法、神经网络算法、XGBoost 算法等[20]。
由于本研究目前的样本数量较少,希望通过后期不断引入新数据的方式提高模型准确度,且数据类型多样,包括离散型、连续型、有序型等。因此,采用贝叶斯算法来建立分类预测模型。
2.3.2贝叶斯算法原理
贝叶斯算法基于贝叶斯定理[20],通过计算后验概率来进行预测和分类。其原理可以式(2)表示:
(2)
式中:P(A|B)为在观察到B的条件下,A发生的概率;P(B|A)为在A发生的条件下,B发生的概率;P(A)和P(B)分别表示A和B的先验概率。
2.3.3分类预测模型的构建
将经过筛选后的检测结果(见表2、表3)特征指标数据作为训练集,经计算得到分类预测模型的先验概率和条件概率。在对未知样品进行分类预测时,则把未知样品的数据代入式(2)进行计算,并将所有特征的条件概率相乘来计算P(数据|类别),就得到每个类别的后验概率,最后选择后验概率最大的类别作为预测结果。
2.4 分类预测模型的验证
将实验样品(编号26~29)作为未知样品,测试其特征指标,结果见表 5、表 6。
将表 5、表 6的数据输入分类预测模型,预测结果见表 7。
表5 未知样品烃类组成检测结果样品编号MS丰度比71856768698182839697w(链烷烃)/%261.000 00.686 10.103 10.043 50.393 80.157 10.076 10.307 60.094 80.322 852.94271.000 00.677 30.066 60.035 10.318 10.101 30.058 50.258 80.069 20.254 359.08281.000 00.631 90.143 70.057 30.494 80.226 30.109 60.398 50.144 70.458 344.52290.413 51.000 00.295 80.033 40.278 60.295 00.299 80.061 70.119 00.171 847.61
表6 未知样品其他项目检测结果样品编号折射率(20 ℃)倾点/℃黏度(40 ℃)/(mm2·s-1)黏度(100 ℃)/(mm2·s-1)黏度指数蒸发损失/%开口 闪点/℃261.489-1925.84.91159.5209271.487-1826.85.112210.8210281.482-1355.38.11108.9214291.481-1539.86.51169.5205
由表7分类预测结果表明,该模型可以很好地对GTL润滑油进行分类鉴别,具有很高的准确性和稳定性。
表7 未知样品基础油分类预测结果样品编号基础油预测概率分布GTL润滑油矿物油基润滑油基础油预测分类结果与标识是否一致261.002.16×10-27GTL润滑油是271.008.97×10-35GTL润滑油是281.29×10-1521.00矿物油基润滑油是295.00×10-1911.00矿物油基润滑油是
3 结语
建立了一种基于互信息和贝叶斯算法的分类预测模型,用于对GTL润滑油进行分类鉴别。通过对市售样品进行分析预测,结果表明该模型可以很好地对GTL润滑油进行分类鉴别。为了进一步提高模型的准确性和稳定性,可以通过不断引入新数据,更新模型中的先验概率分布,以便于模型更好地适应真实世界中的变化,并提高模型对未知数据的预测能力。此外,还可以通过补充新的分类数据,对该模型进行扩展,用于预测其他种类的润滑油。这将为润滑油行业和关税鉴定提供更加全面和准确的鉴别工具。