阿片类药物危机
2019-08-06谢沛洁
谢沛洁
关键词: 但因素差异性检验;分布规律;灰色预测;主成分分析;多元线性回归分析
针对问题一,想要确定合成阿片类药物的传播规律,无非就是确定药量随空间和时间变化的增长规律,理想情况下,我们需要准确的知道各州甚至各县不同年份的阿片类药物的数量-时间尺度,以及个各州甚至各县的相对位置-空间尺度。在时间尺度上,对五个州合成阿片类药物的增长趋势进行观察,并对个州每一年逐一进行单因素差异性检验,发现OH州和ky州随年份的增长,差异性逐渐怎大,我们即可将范围缩小到OH州和KY州的县中,在通过时间序列模型,对其药量有短时间内大程度变化的县进行锁定分析,确定最早发生阿片类药物的地方是OH州的OC县;在空间尺度上,根据NFLIS提供的数据,但我们并不能得到各个县的相对位置,经过查阅资料和思考,我们发现,毒品的传播并不太依赖于空间概念上距离,他的传播更依赖于人口素质,社会治安等一系列复杂的因素,于是我们定义了一个抽象的概念-相对传播距离,其反应一种毒品传播泛滥在某个城市的难易程度,其跟一些隐含而复杂的社会因素成一定的函数关系,在第一问,我们并不深入讨论相对传播距离的影响因素,而仅仅简化的根据毒品检测量的多少对461个县进行排名,概括地了解毒品在州之间的分布规律,用排名的序列抽象地代表相对传播距离,并根据时间序列(专有名词),计算出其分布规律的变化规律,我们发现其分布规律大致成Y=AX^B+C的形式,并通过最小二乘法对其进行拟合,置信度r^2可达0.95,我们通过对每年的分布规律的拟合确定每年的分布律的参数,我们通过G(1,1)灰色预测模型(专有名词)对参数进行预测,以达到对毒品在各县分布的预测,即达到对传播规律进行描述的目的。在分析过程中,我们对并对药片进行K-MEANS聚类分析,找出较为代表性的药品 海洛因和 Oxy 的分布規律作为毒品泛滥程度的依据,根据灰色预测模型通过matlb进行仿真,得到7年内美国政府不采取措施抑制该毒品的传播模式,海洛因和Oxy 中高含量的县将达1/3,这将是十分危险的。
针对第二问,我们在第一问中,已经定义了相对传播距离的概念,在第二问中我们将深入探讨相对距离与社会因素之间的关系,首先,我们对596组社会因素的数据进行主成分分析进行降维,惊人的发现,某合成因素的贡献率可达99.8,所以我们将数据降至一维进行分析,发现该合成因素的分布律与毒品数量分布规律极为相似。为了找出那些因素致使阿片类药物的泛滥,我们通过多元线性回归分析,找出5个相对重要且相关的社会因素-家庭人口数,年龄,婚姻状况,家庭构成,受教育程度、用以描述其与“相对传播距离“的关系以完善第一部分的模型。
针对问题三,基于第一问和第二问的研究结果,我们发现一种新型毒品Oxy 对毒品分布有及其大的影响,为了验证抑制该类新型毒品对毒品传播的影响,通过matlab对其进行仿真,发现如果将其增长速率抑制在(1475单位/年)的水平下,阿类药片的分布将维持在一个比较稳定的情况。
1 问题重述
本题主要告诉我们位于美国五个洲(俄亥俄州、肯塔基州、西弗吉尼亚州、弗吉尼亚州和田纳西州)的各个县的毒品案件的药物鉴定结果和相关信息。希望你们通过数据分析和建模能够有效防止阿片类药物非法使用对美国带来的负面影响。
Part I:
●使用NFLIS的数据,描述五个州及其县之间的合成阿片和海洛因事件(病例)的特点;
●建立关于如上所述特点的模型,用以描述每个州及其县在2010-2017 年间合成阿片和海洛因事件(病例)的特点的变化情况。分析并解释建模结果;
●确定五个州中最早发生阿片类药物使用的具体位置,解释你们的选择和选择标准;
●根据如上所述各州及其县之间的合成阿片和海洛因事件的特点的变化情况,指出美国政府应该有什么具体的担忧以及在什么药物识别阈值的水平,这些事件会发生并预测在何时何地发生。
Part II:
●使用美国人口普查的提供的社会经济数据,判断阿片类药物的使用或趋势在某种程度上与美国人口普查提供的社会经济数据有关吗;
●如果有关,则修改Part I中的模型使之包含次数据集中的重要因素。
Part III:
●根据Part I和Part II,确定一个方案用以对抗阿片类药物危机;
●根据你的模型测试该方案的有效性并确定成功(或失败)依赖的重要参数范围。
本文除了主要报告还要提供1-2页备忘录,DEA/NFLIS数据库,总结在建模工作期间确定的任何重要见解或结果。
2 部分符号说明
3 模型假设
假设每个州的数据表现形式为随机分布;
假设drug的数量每年的变化与其前年的值和其周围距离有关;
假设毒品对周边的影响主要是与周围的距离和周边人口数量和年龄有关;
4 模型建立
4.1对第一部分的求解
第一部分主要是利用 NFLIS 提供的数据,通过所建立的模型进行分析出报告的五个州及其县之间的合成阿片和海洛因事件 (病例) 的特点.
4.1.1时间序列模型的建立与求解[13][9]
针对于这个问题,本题给出了相对应的数据,所以此题主要是考察对于数据的处理,本文使用的是MATLAB软件[7]对于数据进行合理的处理:
首先构建了5个三维矩阵,分别代表这五个州矩阵:
代表每个县的传播距离,药品种类,毒品事件年份的储存数据,将五个州的毒品事件和年份汇总,如图所示:
以毒品事件数目的对数作为纵轴,分析数量和随时间的变化趋势,可以得到将69种毒品分为4类:
类别四:趋势随年份变化减小,我们称之为旧型毒品。
例如:自2010年起一直下降的有Hydrocodone (10)和Oxycodone (6)。
对于地理位置的分析我们通过建立Dx-Qc 的模型,Dx 为从D0 开始从高到低排序的毒品事件数量的传播距离,Qc 为毒品事件数量。通过曲线拟合可以得到 。
●当 时,我们认为毒品在地理上具有区域性,特异性,只有在特定区域有范围传播和流行。
●当 时,我们认为毒品在地理上具有普及性,广泛性,在这五个州有大范围的传播和流行。
通过分析461个县的阿片类药物随年份的变化和趋势,毒品事件数目曲线增长率大,则该县越容易成为毒品的泛滥的区域,同时也可以认为该县时毒品发生的发源地。
通过分析五个州的阿片类药物随年份的增长趋势,我们可以发现,OH州最先在2012年毒品事件的数量呈现上升趋势,随后PA州在2015年的时候毒品事件的数量呈现上升趋势,KY州和VA州的毒品发生事件相对稳定,WV州处于一个较低的水平。我们可以从州的角度,推断出最有可能最先发生毒品事件的县的大概I地理位置。
通过 的拟合曲线,我们可以推测Ds 趋近于D0 时,毒品事件Qc 的数量越大。故我们筛选越趋近于D0 的县Dx ,同时通过年份的排序,重点筛选OH州,PA州的县,筛选出Dx 上升趋势越快的县,通过数据分析便可以得出最有可能最先发生毒品事件的县。
如图所示是各种阿片类药物与其前40名毒品事件数量的县的分布图,我们可以从461个县中筛选出前40名作为重点关注和监管的对象,作为给美国政府的建议。
4.1.2 模型的建立与求解——GM(1,1)模型[14]
有关建模的问题说明如下:
定原始序列X(0) 中的数据不一定要全部用来建模,对原始数据的取舍不同,可得模型不同,即a和b不同。
模的数据取舍应保证建模序列等时距、相连,不得有跳跃出现。
一般建模数据 序列应当由最新的数据及其相邻数据构成,当再出现新的数据时,可采用两种方法处理:一是将新信息加入原始序列中,重估参数;二是去掉原始序列中最老的一个数据,再加上最新的数据,所形成的序列和原序列维数相等,再重估参数。
4.1.2.1 模型结果
Fig. 7 G(1,1)grey forecast chart for drug independence in five states
通过建立灰色模型,我们预测了从2018年到2022年时,5个州毒品事件随年份变化的曲线图,通过图像我们可以看出OH州的毒品事件发生数量随着年份上升极快,预计在2019年就可以超过50000起,PA州的毒品事件发生也呈现上升趋势,预计在2022年就可以超过25000起;VA州呈现平稳的趋势,毒品事件发生数量变化不大;KY州和WV州毒品事件发生数量有下降的趋势。美国政府应该主要担心OH州和PA州的毒品事件的泛滥,如果不加以监管很可能会导致毒品犯罪大幅上升。
同时,我们在前述中将毒品分为4类,美国政府应该将大众性毒品和新型毒品作为重点监管对象,大众毒品可能在各个州都有普遍的传播;新型毒品可能突然出现在某个州县,出现井喷式增长。
4.2对问题二的求解
对于第二部分的问题,本文所建立的模型和前一问相同通过拟合曲线Qc=cDsb+c 函数关系,其参数(a,b,c)通过前一问具体可以表示出来,但是对于Ds 在考虑到社会因素的情况下便会引入新的参数来影响其传播距离的值,其附件所给的社会数据是比较多的,每一个县均含有较多的因素指标,所以这里便不能直接使用其大数据集,本文引入了新的模型——主成分分析模型对数据进行合理的降维处理,使得大数据集降为简单的数据集,用于分析处理模型便可以得到较为准确的结果。
4.2.1 主成分模型的建立[15]
4.2.1.1 主成分分析原理
主成分分析也稱主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。在统计学中,主成分分析(principal?components?analysis,PCA)是一种简化数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征.这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面.但是,这也不是一定的,要视具体应用而定。
基于这样的设定和要求,对于n个样本:
其主成分的计算过程如下:
●对样本数据的标准化:
为了实现样本数据的标准化,应求样本数据的平均和方差。样本数据的标准化是基于数据的平均和方差进行的。标准化的实质是将样本变换为平均为0,方差为1的标准化数据。
●计算相关矩阵:
对于给定的n个样本,求样本间的相关系数。相关矩阵中的每一个元素由相应的相关系数所表示
●求特征值和特征向量:
设求得的相关矩阵为R,求解特征方程:
(12)
通过求解特征方程,可得到m个特征值(i=1~m),和对应于每一个特征值的特征向量:
i=1~m (13)
且λ1>λ2>λ3>λm>0 与之对应的特征向量相互正交。
求主成分
根据求得的m个特征向量,m个主要成分分别为:
… …
以上求得的主成分相互正交且每一个主成分的方差等于对应的特征向量λ。显然,各主要成分对应的方差是逐次递减的。
4.2.1.2 求特征值和特征向量
通过上述方法可求得m(m≤p )个主成分。我们称第i个主成分的λ1 与 之比为第i个主成分的贡献率。
在m个主成分中,前q个主成分的贡献率之和为:
(14)
我们称a为前q个主成分的累积贡献率。
主成分的个数可以通过累积贡献率来确定。通常以累积贡献率 为标准。对于选定的q个主成分,若其累积贡献率达到了85%,即 ,则主成分可确定为q个。它表示,所选定的q个主成分,基本保留了原来p个变量的信息。在决定主成分的个数时,应在 的条件下,尽量减少主成分的个数。
主成分分析以较少的m个指标代替了原来的p个指标对系统进行分析,这给我们对系统的综合评价带来了很大的方便。
4.2.1.3 模型的求解
通过MATLAB软件进行主成分降维后的图像如下所示:
Fig. 8 降维数据图
4.2.2对问题二的求解
这里带有部分主观因素,同时结合数据的降维分类后的结果来看,其影响毒品总量本文提出了以下几个主要指标人口的种族,婚姻状况、受教育程度、家庭人口数、年龄。
4.3对问题三的求解
本文结合问题一和问题二的结果先给出一个策略,即如何有效地解决阿片类药物危机。再根据问题一和问题二所建立的模型,确定该策略是否有效,并确定成功(或失败)依赖的任何重要参数范围。
4.3.1 方案的提出
由问题一的结果可以得出:我们将毒品分为4类,美国政府应该将大众性毒品和新型毒品作为重点监管对象,大众毒品可能在各个州都有普遍的传播;新型毒品可能突然出现在某个州县,出现井喷式增长。问题一得出了各种阿片类药物与其前40名毒品事件数量的县的分布图。因此,美国政府应该将这461个县中筛选出的前40名作为重点关注和监管的对象并对已分析的井喷式增长的毒品进行有效抑制。从而有效抑制阿片类药物的传播速率。
由问题二的结果可以得出:导致阿片类药物的使用泛滥的原因不仅有部分主观因素,还有人口的种族,婚姻状况、受教育程度、家庭人口数、年龄等主要指标。美国政府应该对存在种族歧或婚姻状况不良或受教育程度不够或家庭人口数过多家庭经济负担大或年龄较小的青少年等人群进行重点监管,防止由于如上所述客观因素导致其非法使用阿片类药物。
因此,本文的策略具体为:美国联邦局(FBI)和美国缉毒局(DEA)对新型毒品进行严格监管并且对已筛选 出的40个县进行重点关注和监管,对受人口的种族,婚姻状况、受教育程度、家庭人口数、年龄等因素影响的易涉毒人群进行重点监管。
4.3.2方案有效性的检验
通过建立灰色模型,我们预测出通过对美国政府应该将这461个县中筛选出的前40名作为重点关注和监管的对象并对已分析出存在井喷式增长可能的新型毒品進行有效抑制后美国毒品事件数量会大幅度衰减(如右图);美国政府对存在种族歧或婚姻状况不良或受教育程度不够或家庭人口数过多家庭经济负担大或年龄较小的青少年等人群进行重点监管后美国毒品事件数量会大幅度衰减。(如左图)。并且两个图具有高度重合性,由此可以看出,通过对如上两个方面进行有效控制,美国阿片类药物危机问题将得到有效解决。
4.3.3 重要参数范围的确定
根据问题一和问题二的结论及本文所提出策略有效性在模型中成功得到检验可以得出重要参数范围有如下两个方面:新型毒品的种类和主要传播区域;美国社会人为因素:受教育程度、种族问题、婚姻状况、家庭人口数、年龄等指标。
5 模型优缺点及推广
5.1优点
论文进行大量的图像拟合,较为生动,图文并茂。
对数据进行了较好的处理并将其分别存储在5个矩阵中,便于后续的提取使用。
由于毒品总量的对比差异比较大,所以在构建图像时使得图像的变化将及其不明显,本文采用了对数据进行取对数的方法,进行降维处理后,便可以比较方便的得到曲线的变化趋势。
由于其社会因素比较多,这里通过对比数据本文寻找到主要的几个指标来确定社会因素对毒品使用量的影响,这样使得本文在其误差范围内使得计算更为的简单。
本文引进了一个新的概念——地理位置Dx-Qc 模型,曲线拟合得到Qc=aDsb+c ,其曲线拟合度R2 作为判断毒品在地理上具有区域性或者普及性。
5.2 缺点
模型进行定量的描述,没有很确定的精确到每一个州。
对于预测模型的建立的精准度没有控制到很高,所以其预测的结果存在着一定偏离正确结果。
5.3推广
本文对与求解毒品过程所建立的模型其具有代表性和广泛性,对于毒品特性的描述只是其中的一种表述,Qc=aDsb+c 对于其中的参数是根据具体的事物来确定其值的,所以本文建立的是一个大众化的模型,比如说对于枪支,弹药这一类的武器也可以采用相同的模型,只是对于其中某部分的参数进行相应的对照改变,便可以得到其变化的特性以及 传播的特点。
6 备忘录
在对本题求解的过程中,最初始的一步是通过MATLAB软件构造了5个州的各个县的三维矩阵分别存储各个县的毒品事件数量Qc,距离毒品事件最多的县的传播距离Ds和年份变化Yi 这三个数据。在考虑到多方面的因素下合理的构造了时间序列模型用于对毒品进行分类描述其特性,首先,通过在毒品的性质分类,我们将毒品分为四类:
类别一:logQc≥3 ,趋势随年份变化平稳,我们称这类药物为大众毒品。
类别二:logQc≥3 ,趋势随年份变化平稳,我们称这类药物为小众毒品。
类别三:趋势随年份变化增加,我们称之为新型毒品。
类别四:趋势随年份变化减小,我们称之为旧型毒品。
美国政府应该将大众性毒品和新型毒品作为重点监管对象,大众毒品可能在各个州都有普遍的传播;新型毒品可能突然出现在某个州县,出现井喷式增长。
同时,我们拟合了毒品事件数量和毒品事件传播距离的曲线,满足 Qc=aDsb+c
的曲线规律,当R2≥0.98 时,通过图像分析可以知道,随着Ds 传播距离增大,Qc迅速减小,此时我们认为毒品在地理上具有区域性,特异性,只有在特定区域有范围传播和流行。
R2<0.98 时,随着Ds 传播距离增大,Qc 缓慢减少,我们认为毒品在地理上具有普及性,广泛性,在这五个州有大范围的传播和流行。
分析五个州的阿片类药物事件数量随年份的变化规律,我们知道了OH州最先在2012年毒品事件的数量呈现上升趋势,随后PA州在2015年的时候毒品事件的数量呈现上升趋势,KY州和VA州的毒品发生事件相对稳定,WV州处于一个较低的水平。对此,我们进一步分析各个县的传播距离随年份变化的趋势,如果Ds 随年份增长减小,那么我们可以认为该县的毒品事件发生数量呈现增长趋势。通过提取分析这些县,我们提取了40个主要毒品事件泛滥的县,进而建议美国政府最需要的监管的州和县。
通过灰色预测模型,我们预测了2019到2022年的五个州的毒品数量变化趋势,OH州的毒品事件发生数量随着年份上升极快,预计在2019年就可以超过50000起,PA州的毒品事件发生也呈现上升趋势,预计在2022年就可以超过25000起;VA州呈现平稳的趋势,毒品事件发生数量变化不大;KY州和WV州毒品事件发生数量有下降的趋势。美国政府应该主要担心OH州和PA州的毒品事件的泛滥。
对于第二部分的问题,本文所建立的模型和前一问相同通过拟合曲线Qc=aDsb+c 函数关系,其参数(a,b,c)通过前一问具体可以表示出来,但是对于Ds 在考虑到社会因素的情况下便会引入新的参数来影响其传播距离的值,其附件所给的社会数据是比较多的,每一个县均含有较多的因素指标,所以这里便不能直接使用其大数据集,本文引入了新的模型——主成分分析模型对数据进行合理的降维处理,使得大数据集降为简单的数据集,用于分析处理模型便可以得到较为准确的结果。其影响毒品总量本文指出了以下几个主要指标:人口的种族,婚姻状况、受教育程度、家庭人口数、年龄。
本文的策略具体为:通过建立灰色模型,我们预测出通过对美国政府应该将这461个县中筛选出的前40名作为重点关注和监管的对象并对已分析出存在井喷式增长可能的新型毒品进行有效抑制后美国毒品事件数量会大幅度衰减(如右图);美国政府对存在种族歧或婚姻状况不良或受教育程度不够或家庭人口数过多家庭经济负担大或年龄较小的青少年等人群进行重点监管后美国毒品事件数量会大幅度衰减。(如左图)。并且两个图具有高度重合性,由此可以看出,通过对如上两个方面进行有效控制,美国阿片类药物危机问题将得到有效解决。
参考文献:
[1]Magdalena Sikora,Urszula Skupio,Kamila Jastrzebska,Jan Rodriguez Parkitna,Ryszard Przewlocki. Antagonism of μ-opioid receptors reduces sensation seeking-like behavior in mice[J]. Behavioural Brain Research,2019,359.
[2]侯臣平,矫媛媛.Matlab在《概率论与数理统计》教学中的应用[J].教育教学论坛,2019(05):156-157.
[3]Thomas Bothner,Alexander Its,Andrei Prokhorov. On the analysis of incomplete spectra in random matrix theory through an extension of the Jimbo–Miwa–Ueno differential[J]. Advances in Mathematics,2019,345.
[4]陈甜甜.基于Matlab的动态规划算法的实现及应用[J].中国校外教育,2019(03):96-97.
[5]https://blog.csdn.net/sunjihoufeng/article/details/80849840 MATLAB与数据预处理
[6]陈明《MATLAB神经网络原理与实例精讲》清华大学出版社. 2013-3 ISBN 978-7-302-30741-9
[7]陈小娥.基于MATLAB的图像信息隐藏算法研究与实现[J].绍兴文理学院学报(自然科学),2018(03):86-92.
[8]汤名权.Matlab软件在数学建模中的应用分析[J].电子测试,2017(12):49-50.
[9]刘晓燕.美国《国家地理标准》中脑中地图的标准及解读[J].中学地理教学参考,2002(Z2):107-109.
[10]Sharma S P, PurkaitB C, Lahirl S C. Qualitative and quantita- tive analysis of seizes street drug samples and identification of source[ J]. Forensic Science Internationa,l 2005, 152.
[11]丁慧剑.数学算法对计算机编程的优化作用探讨[J].信息技术与信息化,2018(12):208-210.
[12]王军鹰.数学软件在数学建模中的运用[J].电子技术与软件工程,2018(21):57-58.
[13]Ronghui Qi,Chuanshuai Dong,Li-Zhi Zhang. Wave-wise falling film in liquid desiccant dehumidification systems: Model development and time-series parameter analysis[J]. International Journal of Heat and Mass Transfer,2019,132.
[14]成樞,冯子帆,郭祥琳,邱建.不同灰色GM(1,1)模型预测中的效果分析[J].测绘信息,2019,44(01):14-17.
[15]韩小孩,张耀辉,孙福军,王少华. 基于主成分分析的指标权重确定方法[J]. 四川兵工学报,2012,33(10):124-126.
[16]林海明,杜子芳. 主成分分析综合评价应该注意的问题[J]. 统计研,2013,30(08):25-31