APP下载

基于分位回归的偏最小二乘算法的应用

2019-03-05易丹辉

统计与决策 2019年2期
关键词:宗气位数二阶

程 豪 ,易丹辉

(1.中国科协创新战略研究院,北京100012;2.中国人民大学:a.统计咨询研究中心;b.统计学院,北京100872)

0 引言

原PLS算法在外部估计和内部估计中,利用线性回归作为算法核心技术,完成权重迭代过程。在利用PLS算法解决二阶因子模型参数估计问题时,PLS自带的无独立性假定、无数据分布要求、兼顾变量间关系、所有数值计算结果客观的优点,突破传统综合变量构建方法的局限。但若样本存在明确异质性,数据存在离群点,亦或是研究主题更关注数据全貌而非平均水平,原PLS将面临瓶颈。此时,如果考虑将样本集划分为几个同质性的子集,或预先处理离群点,亦或人为对原始数据取分位数,则会增加冗余处理环节,损失可用信息,影响研究结论。

因此,本文借助分位回归具备容纳异质性样本、不受极端值影响、完备展示数据全貌的优点,拓展PLS算法的使用范畴,提高参数估计能力和诊断能力。

1 基于分位回归的PLS算法思想

以二阶因子模型为例,其表达形式如式(1)和式(2):

式(1)为测量模型,它反映可测变量xjh与一阶因子ξj间的关系。λjh是载荷系数,表示一阶因子ξj对可测变量xjh的影响。εjh为第j个一阶因子ξj中第h个可测变量xjh的测量误差,均值为0,方差为δ2jh,且与一阶因子ξj不相关。

式(2)为结构模型,它反映的是一阶因子ξj与二阶因子η间的关系。βj是路径系数,表示二阶因子η对一阶因子ξj的影响。δj为第j个一阶因子ξj的测量误差,均值为0,方差为

作为二阶因子模型的参数估计算法,PLS包括外部估计、内部估计和(内、外部)权重更新三个环节。其中,权重更新过程的核心技术为线性回归的普通最小二乘估计算法。基于分位回归的PLS算法以此为突破点,用分位回归取代线性回归,通过设置多个嵌套循环,完成不同分位数水平下的因子得分和系数的计算。算法步骤如下:

步骤1:初始权重ω0,tau和e0,tau设定为1;

步骤4:权重更新;

步骤4-1:设定分位数水平τ,设计嵌套循环;

步骤 4-2:可测变量数m,循环计算

步骤5:反复迭代上述步骤,直到收敛为止。

其中,收敛判断标准为:(1)最大迭代次数为200;(2)相邻两次的权重估计值相差小于10-5。

2 理化指标评估中医宗气的模型研发

2.1 数据预处理

本文数据来自中国中医科学院中医基础理论研究所、中国广安门中医院的中医宗气评估课题。该数据由59例老年组受访者和10例青年组受试者通过可穿戴式技术,完成心率、血氧、体温、呼吸的连续自我监测。连续监测时间为2013年12月5日0点0时0分到2013年12月6日23点59分59秒,两次监测时间间隔为几秒。

由于受试者具体参与监测的起始时间不同,因此该数据具有监测次数不相同、监测时间不齐整的特点。为了攻克这两点局限,避免受到监测过程中可能出现的异常或错误数据的干扰,保留时间因素的影响,本文提出一种数据处理思路。将数据分为上午、下午和傍晚三个时间段,分别通过不同维度反映心率、血氧、体温、呼吸水平,比如用中位数刻画总体水平,最小值和95%分位数刻画极值水平,其中95%分位数取代最大值。变异水平由四分位数差刻画,即由75%分位数和25%分位数之差刻画对应指标的变异水平。

2.2 中医宗气模型设计

中医宗气是由水谷精微化生,聚积胸中,与呼吸之气相合发挥作用的气。宗气聚于两乳之间的膻中。走息道而行呼吸,凡语言、声音、嗅味、呼吸皆与宗气有关。同时还有维持气血运行、维持心脏运动、维持肢体体温与活动能力的作用。经过研究,通过可穿戴式技术、受试者自测获得的理化指标,则从心率、血氧、体温、呼吸四个方面完成对中医宗气模型的设计。图1是经过可测变量筛选后的结果,当用这些可测变量时,可测变量与一阶因子间系数(载荷系数)较为显著且符合医学常识。为了方便后续表述,表1给出模型中涉及变量及符号说明。

图1 理化指标评估中医宗气模型

表1 中医宗气模型的变量对应表

3 基于分位回归的PLS算法识别中医宗气模型

与原PLS相同,基于分位回归的PLS算法包括可测变量与一阶因子、一阶因子与二阶因子间相关系数的计算部分,通过相关系数的计算及符号的判断,确定每一步迭代中的一阶因子和二阶因子的外部估计。经过不断的内部调整和外部调整,更新内生权重和外生权重,反复迭代,得到收敛的数值计算结果(路径系数、载荷系数和因子得分)。作为重要的数值计算结果之一,路径系数明确量化相应结构内部二阶因子与一阶因子间的关系,突显结构关系的全貌。通过不同阶因子的排列和单向箭头的连接,图2展示了原PLS算法和基于分位回归的PLS算法对中医宗气模型的路径系数估计结果。

图2 中医宗气模型路径图

基于分位回归的PLS估计所得路径系数在一定程度上并没有违背原PLS揭示的规律。(1)路径系数的正负揭示了不同模型中二阶因子宗气与一阶因子间关系的正(负)向性。基于分位回归的PLS算法依然反映二阶因子宗气与一阶因子心率、体温和呼吸存在正向关系,与一阶因子血氧存在负向关系,说明除血氧对宗气评估的效应为负外,其余一阶因子对宗气评估的效应均表现为正向。(2)路径系数的大小刻画一阶因子与二阶因子间不同程度的数量关系。所有估计结果中,心率的路径系数基本均为最大,呼吸次之,体温次之,血氧的路径系数为负。

不同的是,基于分位回归的算法展示不同分位数下路径系数的估计结果,反映数据信息全貌。(1)从低分位数到高分位数,血氧(从-0.84到-0.44)和呼吸(从0.73到1.03)的绝对路径系数逐渐增加。(2)当分位数为0.10时,体温的路径系数(0.02)达到最小。说明低分位数时体温对宗气评估方面及在判断受试者是否宗气不足方面的贡献最小。(3)当分位数为0.75时,呼吸的路径系数(0.95)出现大于心率(0.92)的情况。说明下四分位数时呼吸对宗气评估方面具有最为重要的作用,在判断受试者是否宗气不足方面的贡献最大。由此可推知,在宗气评估方面,心肺功能(心率和呼吸)起着至关重要的作用,最能反映受试者宗气足与不足的表征规律。表2(见下页)从中医宗气模型中的载荷系数进一步揭示不同分位数下变量间结构关系全貌。

4 结论与评价

作为一种参数估计方法,基于分位回归的PLS算法,在保留原PLS突破强独立性假定、无数据分布要求、主观赋权等优点的同时,不必考虑数据是否具有异质性,是否存在异常点的问题。在兼顾变量间的相关关系的前提下,反映不同分位点下的数据全貌和结构关系,完整诠释所评估主题的多层次内涵。作为一种新的分析工具,基于分位回归的PLS算法为用理化指标评估中医宗气提供可能。至此,受试者可以通过可穿戴式检测仪器、由民众自主测量的模式,评估一部分中医疑难杂症。在减轻大夫诊治负担的同时,也节约了医疗资源,提高了医学研究效率。这种操作上的便捷性,实现正常民众的提前检测和患者的定期检测,可以随时跟踪自身的健康状况和变化趋势,起到疾病预防和警示的作用。

表2 中医宗气模型的载荷系数

但是,并不是所有适用于原PLS估计的数据均可以用基于分位回归的PLS算法来解决。当数据为分类或等级数据时,基于分位回归的PLS算法可能出现无法识别的问题。经尝试,当变量为1~5的量表数据时,该算法无法识别低分位(分位数小于0.3)模型的参数估计。基于分位回归的PLS算法对数据类型的要求,是分位回归带来的不可避免的方法局限。

猜你喜欢

宗气位数二阶
徐宗佩教授运用宗气理论指导冠心病心绞痛诊疗经验
二阶整线性递归数列的性质及应用
连续自然数及其乘积的位数分析
二阶线性微分方程的解法
一类二阶中立随机偏微分方程的吸引集和拟不变集
宗气理论的整合教学尝试
运用调补宗气治则治疗胸痹经验*
试述“宗气”与“肺痹”
比大小有窍门
非线性m点边值问题的多重正解