面向健康产业大数据的灰色关联分析建模探讨
2018-09-10李桥兴陈克杰
李桥兴 陈克杰
摘 要:大数据作为新的管理思维和技术手段,给大健康产业发展和灰色关联分析建模带来了新的机遇及挑战。为此,本文基于大数据“海量、多源、异构、低密度价值”的基本特征,探讨大健康产业的大数据表现形式及灰色关联分析的大数据建模思路,为拓展灰色关联分析的应用研究提供新的思路。
关键词:灰色关联分析;大数据建模;大健康产业
中图分类号:F26/TP311
文献标识码:A
文章编号:1000-5099(2018)02-0057-06
Abstract:As a new management thinking and technology means, the big data brings new opportunities and challenges to develop the big health industry and establish gray relational model. On the basis of the basic characteristics of big data, i.e., mass, multiplied sources, heterogeneity and low density value, weve explored the representation method of big data for the big health industries and the modeling ideas of gray relational analysis by using big data, thus to provide a new idea to explore the application research of the gray relational analysis.
Key words:gray relational analysis; modeling with big data; big health industry
互联网、物联网、云计算和电子商务等科学技术的快速发展催生了经济社会各领域的半结构化和非结构化海量数据,促使现代管理决策的思维方式和决策模式发生了巨大的挑战和新的机遇,同时分析和挖掘大数据的潜在价值也成为现代管理决策的重要特征。另一方面,随着我国经济社会的不断进步和人民生活水平的持续提高,大健康产业的发展被各级党委和政府部门提到了战略层面的重要位置。产业发展中不断引入的新技术使大健康产业数据逐步具备了大数据的“海量、多源、异构和低密度价值”等特征。
灰色关联分析是灰色系统理论的重要内容,在各研究领域被学者们广泛引用,如区域战略性新兴产业的选择[1]、高技术产业的创新效率分析[2]、电力系统黑启动方案的优选[3] 等。然而,灰色关联分析方法的应用对象是少数据贫信息不确定性问题,其适用领域是“部分信息已知,部分信息未知的小样本数据”建模[4]。另一方面,大数据时代极大地提高了被研究领域的全部数据或信息的可获取性,也引发了灰色关联分析方法的应用危机。文献[5]认为,灰色系统理论的研究对象应该只涉及贫信息而与少数据无关,即数据量与贫信息不存在充分必要的关系,从而为灰色关联分析的大数据建模提供了理论依据。部分学者初步探讨了大数据时代灰色关联分析的应用研究,如徐蕾基于灰色关联分析改进模型,研究了大数据时代高效财务预算绩效评价 [6];李刚等根据熵权和灰色关联模型并采用电力大数据对用电质量进行了综合评估 [7]等。虽然文献[6-7]的研究内容涉及了大数据的有关方面,但并未深入探讨灰色关联分析的大数据建模,其涉及的类型也是结构化数据而缺乏对半结构化和非结构化数据的建模探讨等。鉴于灰色关联分析方法在研究产业发展的相关因素(包括影响因素、关联因素和控制因素等)等方面具有独特的优势和作用,本文将以大健康产业为例,探讨灰色关联分析的大数据建模模式,对进一步发展完善灰色系统理论等具有积极的促进作用。
一、大健康产业的大数据特征
大健康产业是指以维护、改善、促进与管理健康,预防疾病为目的,提供产学研产品与相关健康服务的行业总称[8]。大数据具有4V特征,即海量(Volume)、多源异构(Variety)、低密度价值(Value)和处理速度快(Velocity)等[9]。随着互联网、物联网、云计算和电子商务等科学技术的发展,大健康产业的数据逐渐具备了大数据的4个基本特征。
1. 大健康产业数据的海量特征
大健康产业数据的海量特征主要表现为数据量多,增长速度快。例如,随着互联网和物联网的快速发展以及条形码技术的普遍使用,大健康产品的产量和销售量等数据不断被生厂商、中间商、物流商和销售商等存储使用,促使数据量快速增长;又如,远程医疗和可穿戴设备等技术使得医院和卫生管理部门实现了病人体征等数据信息的网络化采集与使用,促使数据量急剧增加。鉴于此,我们总结出大健康产业的大数据海量特征主要表现在以下几个方面:
首先,目标对象的长时间监测可获得海量数据。例如,健康种植业如茶叶和中药材等实现了产业化和现代化,即大规模种植后采用物联网观测其生长环境的温度、湿度、雨量、虫害和风向等指标并进行数据收集,以及通过现代物流技术收集到相关产品在销售渠道中产生的各项成本、销售利润、销售价格和销售量等数据。又如,医院和医疗卫生机构等通过医疗设备记录和可穿戴设备实时监控等方式得到的人体健康数据;健康种植业和健康制造业等在降低成本和规模化经营等企业活动中,其科学管理和生产模式必然涉及数据分析,等等。这些数据经过人们长时间的监测和收集整理后,其数据量将会变得异常庞大。
其次,目标群体巨大产生的海量数据。健康管理、医疗康复、养老护理和养生健身等健康产业主要面向大众服务,必然涉及庞大的人群规模。例如,我国60岁以上的老龄人口在2016年已经超过2.3亿人[10],选择养老机构养老和智慧居家养老等模式的人群体量庞大,由此产生了老年健康海量数据;又如,当前关注健康養生的人群越来越庞大且有年轻化趋势,仅通过互联网关注健康养生的人群月度活跃用户超过1 000万人[11],每天也产生了庞大的用户数据量。此外,国家食品药品监督管理局的最新数据显示,我国保健食品数目已达19 670种[12]。这些保健食品在生产、储存、运输、销售等过程中将产生大量数据,等等。这些由目标群体巨大引起的数据量存储需要现象,其产生的数据量必然十分庞大。
再次,研究对象的指标属性多而衍生海量数据。例如,监测人体健康状况涉及了多项指标,如身高、体重、血压、工作量、舒适度等,其数目可达十几个、几十个甚至成百上千个。这些多重属性特征也会产生海量数据。又如,在健康种植业领域,需要监测的对象不仅仅包括种植作物等有机生物的信息如生长速度、营养物质输送状态等,也包括耕种地块等无机物的信息,如地块的历史耕种信息、播种信息、育苗信息、农膜信息、农药化肥信息、灌溉信息、良种信息、农机信息、农情信息等[13]。另外,健康绿色产品的生产销售也需要我们遵循“从土地到餐桌”的全过程质量控制,包括产地环境质量、投入品使用、标准化生产、产品质检、包装储运等信息[14]。由于研究对象自身的复杂性以及指标的多样性等因素,也必然会有海量数据产生。
以上事实说明,大健康产业的海量数据将成为今后产业管理和决策等活动的首要特征。有资料显示,大健康产业预计在未来10年内将会以每年15%~20%的速度增长,其产生的数据将迅猛增长[15]。
2.大健康产业数据的多源异构特征
大数据来源十分广泛,其构成也多种多样。大健康产业数据的来源包括:医疗智能传感器和治疗设备等采集到的医疗对象在生理、心理、病理与治疗等多方面的数据信息,智能可穿戴设备采集到的穿戴对象在温度、血压和心跳等多方面的体征数据信息,健康种植业在温度、湿度、风向和虫害等方面的数据信息以及健康产品在媒体、市场、文件和公告等多种媒介中反映的多方面的数据信息等。大健康产业数据的异构性表现在:健康产品在形态、质量、价格和地理位置等方面的信息数据可以文本、图像、视频、网站等多种不同形式保存;健康服务业除了服务价格、服务体验、肢体语言和质量满意感等即时信息外,还有消费信誉度和受众美誉度等后期信息。显然,大健康产业的数据来源多样和存储方式异构等特征导致数据的处理面临很大困难。
3.大健康产业数据的低密度价值特征
数据的价值含量与数据总量之间不存在正比例关系,表现为在海量数据中只有少数数据能够为管理者决策提供真正价值。由于海量数据中除了相对少量的有价值信息外,还包含了偏差信息、错误信息和不相关信息等,导致管理者获取有价值信息的难度增大和有价值信息量被稀释,因此,海量数据具有明显的低价值密度特征。以健康医疗领域为例,每个CT图像含有150 MB数据,每个标准病理图包含近5 GB数据,2014年全国诊疗人次达761亿人次,产生的诊疗数据高达25 467 TB,但几百兆的数据信息中有用的信息可能仅几个片段,对特定管理决策需求而言,无用数据信息是巨大的,造成了数据冗余。此外,对传染病监测得到的大量数据中敏感信息少,需要动态连续监测才能捕获异常信息或发现其流行规律[16],如此庞大的数据在采集、存储、复制等管理过程中,不可避免地会出现数据偏差及发生数据错误等。因此,大健康产业所获取目标对象的大量日常信息,必然会产生数据偏差和数据冗余等,从而不可避免地稀释那些少量的有价值信息。
二、灰色关联分析的大数据建模思路
随着大数据日益渗透到现代经济系统中的多数行业和现代管理活动中的大多数业务职能领域,大数据已然成为现代生产和管理活动中的重要生产因素和决策依据[17],并给灰色关联分析的应用研究带来了危机[18]。大数据建模与传统数据建模的不同之处在于其“海量、多源、异构、低密度价值”等特征,为灰色关联分析模型在数值采用和计算精度等方面带来了重大挑战。在采用灰色关联分析研究中,其主要工作是建立灰色关联度算法,并且算法模型主要基于以下视角:反映两序列间发展过程或量级的相近性,或反映两序列发展趋势或曲线形状的相似性, 或同时考虑两序列曲线的相近性和相似性等[19]。显然,灰色关联系数及灰色关联度建模在采用海量数据后,其参考序列和比较序列之间的相似性或相近性特征在综合或合并过程中容易被“稀释”或“抵消”,因此,在大数据环境下,于研究各序列间或序列内部间的模型构建过程中,要特别注重其与传统数据序列的区别。
大健康产业中每一个具体产业的大数据序列全体均可构成一个研究对象系统,如在医疗产业中的数据,目前大致可以分为4类:患者就医过程中产生的数据,检验中心的数据,药企、基因测序数据,智能可穿戴设备产生的数据等[20]。各类数据可能在数据类型或数据数量上具有差异,各类数据所构成的数据序列也会有一定差异。为了后续研究方便,我们建立医疗产业的标准大数据序列形式如下:
相应地,对于数据序列被处理成同类型结构的非数值型数据序列,或者只需对数据元素位置进行调整,变成具有在相同位置有相同类型结构的大数据序列,则可参照前面小节的思路进行处理。
(3)无限条数据序列类型
若研究对象的数据属性在某种条件下由于其组成对象太多而难以被一一列举,则可能会得到无限条大数据序列。例如,在健康养生养老领域,若对人体基于细胞层次开展研究,可以将一个细胞所包含的全部信息作为一条大数据序列,这样就会得到无限条大数据序列,并且参考序列和比较序列的数目也可能是无限条。在处理无限条数据序列时,决策者可以参考统计学的抽样调查法、重点调查法或典型调查法等手段来处理无限条大数据序列,并基于给定的接受水平,将无限条大数据序列处理成有限条大数据序列。随后可按照上述有限条大数据序列的处理方法来进行数据处理,并构建灰色关联度模型。
目前已部分实现了对异构大数据的集成、管理和分析[22],但鉴于目前大数据处理在计算机技术方面还没有完全解决,因此,大数據的灰色关联建模还仅仅处于探讨的初期阶段。值得关注的是,随着计算机特别是超导计算机、纳米计算机、DNA计算机甚至量子计算机等研究得到突破,其数据运算能力将会得到极大提高,因此,由“海量、多源、异构、低密度价值”的大数据处理所带来的难题也将会得到有效解决。届时灰色关联模型的研究也将获得重要进展,并有助于大健康产业研究的长足发展。
三、结论
本文以健康产业大数据为例探讨了灰色关联分析的大数据建模问题,给出了大数据建模的预处理方法和灰色关联建模思路。但相关成果还只是初步的,灰色关联分析模型的具体构造方法还有待于计算机相关技术领域的突破。
参考文献:
[1]李桥兴,徐思慧,宋山梅.基于生态和发展底线的贵州省战略性新兴产业选择[J].贵州社会科学,2017(12):163-168.
[2]张华平.高技术产业创新投入与产出灰关联分析[J].中央财经大学学报,2013(3):61-65.
[3]李如琦,唐林权,凌武能,等.基于前景理论和灰关联分析法的黑启动方案优选[J].电力系统保护与控制,2013(5):103-107.
[4]邓聚龙.灰理论基础[M].武汉: 华中科技大学出版社,2002.
[5]李桥兴.灰色运算基础与灰色投入产出分析[M]. 北京:科学出版社,2017.
[6]徐蕾.大数据时代高校财务预算绩效评价研究与应用——基于灰色关联分析改进模型[J].中国管理信息化,2017,20(9):33-36.
[7]李刚,焦亚菲,刘福炎,等.联合采用熵权和灰色系统理论的电力大数据质量综合评估[J].电力建设,2016,37(12):24-31.
[8]王秀华.发展大健康产业 培育新的经济增长点[J].法制与经济,2015(10):120-122.
[9]周健.大数据的特征、管理与挖掘[J].中国市场,2015(45):105-106.
[10]李倩,梁立君.智慧居家养老破解养老难题[J].人民论坛,2017(26):80-81.
[11]我国健康养生市场规模已超万亿元[EB/OL]. (2016-04-18)[2018-02-10].http://www.39yst.com/xinwen/400442.shtml.
[12]国家食品药品监督管理局.[EB/OL].(2018-02-10)[2018-02-15].http://app2.sfda.gov.cn/datasearchp/gzcxSearch.do?formRender=gjcx&optionType=V4.
[13]聂海,李琳英,石宇,等.大数据与现代农业[J].农业开发与装备,2017(10):16.
[14]唐伟,张志华.“互联网+”绿色食品产业发展路径探讨[J].农产品质量与安全,2015(6):7-10.
[15]大健康产业未来十年年增速将达20%[EB/OL]. (2015-06-10)[2018-02-10].http://health.cnr.cn/jkgdxw/20150610/t20150610_518806754.shtml.
[16]健康医疗大数据产业分析与前景展望[EB/OL]. (2017-08-08)[2018-02-19].https://www.cn-healthcare.com/articlewm/20170807/content-1016587.html.
[17]MANYIKA J, CHUI M, BROWN B, et al. Big data: The next frontier for innovation, competition,and productivity[EB/OL]. (2017-05-27)[2018-02-10].
http://www.mckinsey.com/business ̄funcrions/digitol ̄mckinsey/Our ̄insights/big ̄data ̄the ̄next ̄frontier ̄for ̄innovation.
[18]李橋兴,徐思慧,宋山梅.基于生态和发展底线的贵州省战略性新兴产业选择[J].贵州社会科学,2017(12):163-168.
[19]田民,刘思峰,卜志坤.灰色关联度算法模型的研究综述[J].统计与决策,2008(1):24-27.
[20]健康医疗大数据产业浅析[EB/OL]. (2017-11-04)[2018-02-10]. https://baijiahao.baidu.com/s?id=1583094234901924230&wfr=spider&for=pc.
[21]袁景凌,钟珞,杨光,等.绿色数据中心不完备能耗大数据填补及分类算法研究[J].计算机学报,2015,38(12):2499-2516.
[22]东北大学破解大数据分析难题[EB/OL]. (2017-03-16)[2018-02-10].http://scitech.people.com.cn/n1/2017/0316/c1007-29148142.html.
(责任编辑:钟昭会)