可穿戴设备数据挖掘及可视化技术的研究
2016-01-24李晋宏戴海涛
李晋宏++戴海涛
摘要:随着可穿戴设备的迅速发展与广泛普及,由各式各样的穿戴设备产生的运动监测数据、睡眠记录数据、血氧血压血糖等个人健康数据量也越来越大。而数据挖掘及可视化技术的发展,也为可穿戴设备的进一步发展提供了良好的基础,可穿戴设备也只有结合着数据挖掘,才能为用户提供更多有价值的信息,进而增加用户的粘性。如何充分利用这些数据以便于从中挖掘出有价值的信息,如何将这些数据结合着可视化技术予以展现,引起越来越多研究人员的关注。本文通过对可穿戴设备及可视化数据挖掘技术发展现状的分析,来展望可穿戴设备与可视化数据挖掘可能结合的领域或方向。
关键词:可穿戴设备;数据挖掘;可视化技术
中图分类号:TP182
文献标识码:A
DOI:10.3969/j.issn.1003-6970.2015.12.016
本文著录格式:李晋宏,戴海涛.可穿戴设备数据挖掘及可视化技术的研究[J]软件,2015,36(12):69-71
1 引言
智能化是科技发展的必然趋势,人们的生活也将随着智能科技的发展而改变。近几年来,智能手机、智能电视行业迅速发展壮大,渐渐成为人们生活中不可缺少的产品。不仅仅是手机与电视,自从谷歌推出第一代GoogleGlass开始,智能可穿戴设备市场就已开始萌芽。
顾名思义,可穿戴设备即可以直接穿在身上,或是整合到用户的衣服及配件中的便携式设备。可穿戴设备不仅仅是一种硬件设备,更是可以通过软件支持以及云端数据交互,来实现更加强大的功能。近年来,随着可穿戴设备的迅猛发展,这些设备传感器产生的大量数据也越发引人关注,这些数据是不是可以被充分地利用,进而从中发现潜在的有价值的信息呢?
答案是肯定的,尤其是随着数据挖掘技术及可视化技术的发展,更是为充分利用可穿戴设备数据奠定了良好的技术基础。通过数据可视化技术,我们可以将这些数据以二维或三维的形式直观地呈现出来,从而使得数据更容易被解释,同时借助数据挖掘技术,我们可以从这些数据当中挖掘出真正有价值的信息,并将这些信息提供给相关决策人员,进而使得这些数据被充分的利用起来,使这些数据活起来。
2 可穿戴设备
2.1 可穿戴设备分类
目前市场上的可穿戴设备按照功能不同主要可分为以下几类:
2.1.1运动健身类
运动健身类是目前最为热门的产品,其中的代表性产品包括Jawbone Up、Misfit Shine三星GearFit等。这些产品最主要的功能就是记录人体运动、睡眠、饮食等各种与健康相关的数据,通过配套的应用软件,帮助消费者调整作息规律、督促加强训练,从而实现健康的生活方式。这些产品大都带有陀螺仪、加速计等传感器,从而测出佩戴者的运动量、卡路里消耗等数据,并将数据传输到智能手机,进而再传输至云端。
2.1.2 信息资讯类
信息资讯类可穿戴设备是综合性比较高的可穿戴产品,其中以谷歌眼镜及Apple Watch为代表。这类产品一般都在其中搭载智能手机操作系统,进而极大地丰富了产品的功能。例如,谷歌眼镜让用户通过语音实现搜索,并在屏幕上实时显示包括导航/生活等各种信息,而Apple Watch基本可以称之为迷你版的iPhone,这足以说明其功能的丰富。
2.1.3 医疗保健类
医疗保健类可穿戴设备,是目前市场上相对低调但却是最有可能在未来独占半壁江山的可穿戴产品。这类产品关心用户真正的需求,并能解决用户真正关心的问题,用户为之付费的意愿也更高。此类产品以血糖仪、血压仪为代表,同时也在不断地涌现出新的富有代表性的产品,诸如“快乐妈咪”胎语仪、“发烧总监”智能体温计、“盖睿”多功能生命体征采集仪等,这些产品专注于某一类人群,更懂得该类人群所真正关注的问题,因而也更能将产品做的细致入微,吸引更多的消费者。
2.2 可穿戴设备数据
种类繁多的可穿戴设备,产生了大量的种类繁多的数据。这些数据是大量的、高速的、多样性的、富有价值的,而这些恰恰是大数据的特性。因而,可穿戴设备注定是与大数据分不开了,而且可穿戴设备如果想进一步发展,也必须充分利用大数据处理及可视化技术来为其提供新的吸引力、进一步增强用户的粘性。那么市场上种类繁多的可穿戴设备,能产生哪些种类的数据呢?这些数据是如何被采集并被高效地存储起来的呢?
运动健身类可穿戴设备通过陀螺仪、加速计来监测用户的健康数据,这些数据包含了运动、睡眠、卡路里消耗等数据;信息资讯类产品通过对用户的搜索记录、使用习惯等行为进行分析,进而记录一些非结构化的数据;医疗健康类可穿戴设备所产生的数据种类更为繁多,这些数据其实都可以归结为人体体征数据,包括但不局限于血糖、血氧、血压、体温、呼吸率、心率、心电图等,这些数据与人体健康息息相关,为分析预测某一类疾病提供了丰富的第一手数据。
可穿戴设备数据,一般都会通过传感器进行采集,而后暂存于穿戴设备中,在网络连接的情况下,这些数据最终会被传递到云端。一般情况下这些数据是不完整的、包含噪声的甚至是不一致的,这就需要对数据进行清理、集成、规约甚至于数据变换,经过预处理后的数据,最终被存储至数据仓库。
3 可视化数据挖掘
可视化数据挖掘技术是数据挖掘技术和数据可视化的结合,通过计算机图形学和图像处理技术将数据挖掘源的数据、数据挖掘过程和数据挖掘的结果直观的表现出来,并进行交互处理。
3.1 数据挖掘技术
数据挖掘是指从大量、模糊、随机的实际应用数据中,提取隐藏在其中,人们原先不知晓的、却潜在有用的信息和知识的过程。
数据挖掘的任务是发现隐藏在数据中的模式。其模式分为两大类:描述性模式和预测性模式。描述性模式是对当前数据中存在的事实做规范描述,刻画当前数据的一般特性。预测性模式则是以时间为主要关键参数,对于时间序列型数据,根据其历史和当前的值去预测其未来的值。常用的数据挖掘算法有:
3.1.1 聚类分析
聚类是将数据划分成群组的过程,根据数量本身的自然分布性质,数据变量之间存在的程度不同的相似性(亲疏关系),按照一定的准则将最相似的数据聚集成簇。主要包括划分聚类算法,层次聚类算法和密度聚类算法等。经典算法有K-Means、K-Medoids。
3.1.2 特性选择
特性选择是指为特定的应用在不失去数据原有价值的基础上选择最小的属性子集,去除不相关和冗余的属性。特性选择用于在建立分类模型前,或者预测模型之前,对原始数据库进行预处理。常用的算法有最小描述长度法。
3.1.3 特征抽取
特征抽取式数据挖掘技术的常用方法,是一个属性降维的过程,实际为变换属性,经变换了的属性或者特性,是原来属性集的线性合并,出现更小更精的一组属性。常用算法如主成分分析法、因子分析法和非负矩阵因子法等。
3.1.4 关联规则
关联规则挖掘是数据挖掘领域中研究最为广泛和和活跃的方法之一。最初的研究动机是针对购物篮分析问题提出的,目的是为了解决发现交易数据库中不同商品之间的联系规则。关联规则是指大量数据中项集之间的有趣关联或相关关系。常用的算法有Apriori算法。
3.1.5 分类和预测
分类是应用已知的一些属性数据去推测一个未知的离散型的属性数据,而这个被推测的属性数据的可取值是预先定义的。要很好的实现推测,需要事先定义一个分类模型。可用于分类的算法有决策树、朴素贝叶斯分类、神经网络、logistic回归和支持向量机等。
3.2 可视化技术
“可视化”其实质是利用计算机的图形图像处理技术,把各种数据信息转换成合适的图形图像在屏幕上展示出来。这一过程涉及到图形学、几何学、辅助设计和人机交互等领域知识。通常情况下,人们习惯将可视化分为以下四类:科学计算可视化、数据可视化、信息可视化和知识可视化。
科学计算可视化主要用于处理科研领域实验产生和收集的海量数据,力求真实的反应数据原貌,利于模拟实验的进行;数据可视化较为笼统,一般用于处理数据库和数据仓库中储存的数据,目的在于以可视化的方式呈现数据,利于使用者观察;信息可视化抽象层次较高,其目的主要在于让使用者方便地发现数据内部隐藏的规律;知识可视化则主要表现领域知识,使已有的知识能够更加迅速有效的在人群中传播。
设计科学的可视化数据挖掘技术可以从数据源的可视化、数据挖掘过程和数据挖掘结果的可视化人手。
3.2.1 数据源的可视化
数据源的可视化应该在数据挖掘过程算法之前进行,主要作用是展示数据源是如何分布的。如可以用三维立方体或者曲线来表示其中数据分布的情况,用可视化技术来描述数据仓库和数据库中不同的抽象级别和粒度。
3.2.2 数据挖掘预处理阶段的可视化
数据预处理阶段是数据挖掘工作的一个重要阶段,对选定的数据集进行抽取、集成、清晰、转换和规约。在数据的预处理过程中会涉及大量复杂的数据操作,这就需要可视化技术进行处理。预处理阶段的可视化技术可以结合传统的可视化图表形势和界面操作的形式进行。
3.2.3 数据挖掘算法的可视化
数据挖掘过程中的交互式可视化使用可视化的形式来描述挖掘的过程,在整个挖掘过程中,设计合适的数据挖掘算法是极为关键的步骤,也是数据挖掘的难点。算法可视化利用计算机图形学的方法。将算法程序执行和数据演变以动态图形的方式表示出来。
3.2.4 数据挖掘结果模型的可视化
数据挖掘结果模型的可视化主要为了帮助用户能更好地理解所挖掘出来的数据结果,并且需要进行有效的评估和反馈。数据挖掘的结果模型各不相同,也较为繁杂,因而不同的数据挖掘模型,要通过不同的可视化方法来展示。比如曲线图、网络图、柱状图、饼状图等等。
4 结束语
本文对可穿戴设备、数据挖掘及可视化技术作了较为详细的叙述,旨在通过这些技术,来对可穿戴设备数据的价值加以利用,从而更好的服务于用户,增强用户对可穿戴设备的使用粘度。同时,也对可视化技术与数据挖掘技术的结合点进行了分析,为以后的研究指明了方向。
可穿戴设备数据的可视化挖掘是一个新的研究方向,其中涉及到可穿戴设备数据的采集、预处理、数据挖掘及可视化。如何根据已有的数据去预测疾病可能的发展趋势可能需要使用时间序列分析技术进行分析,如何根据用户的生活信息,去判断某些疾病的产生原因或诱发因素,可能需要我们使用关联规则去进行分析。总之,如何根据不同的数据挖掘需求,选择合适的数据挖掘及可视化算法,仍需进一步的研究。