大数据研究综述
2017-04-09姚哲
姚哲
摘 要: 随着信息技术的高速发展,大数据的广泛应用影响着人类生活的方方面面。从大数据的基本概念入手,探讨了大数据的“四V”特征:Volume(大容量)、Variety(多样化)、Velocity(高速)、Value(价值密度低),阐述了大数据在教育、医疗、零售业方面的应用,并且归纳梳理了国内外的研究现状。
关键词: 大数据; 应用; 教育; 医疗; 零售业
中图分类号: G203 文献标志码: A 文章编号: 1671-2153(2017)05-0036-05
一、大数据定义
尽管“大数据”一词已经耳熟能详,但是在业内还没有统一的定义。“大数据”研究机构Gartner将“大数据”定义为需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。Viktor Mayer-Sch?觟nberger和Kenneth Cukier在《大数据时代》(Big Data:A Revolution That Will Transform How We Live, Work, and Think)一书中写道:大数据不用随机分析法(抽样调查)这样的捷径,对所有数据进行分析处理。麻省理工学院的Cesar A. Hidalgo博士认为大数据是指规模大、内容多、富有深度的数据集[1]。维基百科则将“大数据”定义为所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策目的的资讯。
关于数据密集型科学,著名数据库专家、图灵奖的获得者Jim Gary 博士在《第四范式:数据密集型科学发现》(The Fourth Paradigm:Data-Intensive Scientific Discovery)一书中表示鉴于数据密集型科学研究独特的技术支持需求和鲜明特点,有必要将数据密集型科学从计算科学中单独区分开来,这种新的科学研究方式称之为第四范式(The Fourth Paradigm),即“数据探索”(Data Expiration)[2]。四种科学范式的含义如表1所示。
二、大数据的特征
起初,IBM公司提出大数据具有5“V”的特征,即Volume(大容量)、Variety(多样化)、Velocity(高速)、Value(价值密度低)、Veracity(真实性)[3]。但是最近幾年,互联网数据的不可靠性日益突出,比如淘宝店铺中某产品的一致好评基本上是刷单的结果,快递公司建设虚假海外物流查询网站欺骗海购消费者,Veracity(真实性)已经不再是大数据的特征之一。
Volume 是指庞大的数据量,同时也是大数据特征中最重要的一项,它主要表現在处理的数量级已经从TB级别跨越到PB、EB,甚至ZB级别。数据量体现在TB级以上的数据在进行数据访问、收集、处理、整合、转换、管理、存储等方面时所体现的数据规模之大,维度和数量之多。
Variety可以理解为数据的种类繁多,例如社交网络上的视频、音频、图片都是数据的不同形式。随着互联网的高速发展,数据类型从传统的以结构化为主的状态慢慢地转变为结构化、半结构化、非结构化并存的状态。传统的非计算机领域,比如心理学、行为研究学、历史学、考古学,通过运用大数据技术能生成特别丰富的数据集。
Velocity是指数据整合处理的过程中具有高速运转的特征,从而满足用户实时性的需求。如今,信息传播的方式正在发生天翻地覆的变化,用户对于数据智能化和实时性的要求也日益提高,例如直播间的主播与留言的粉丝进行互动,使用打车软件快速了解附近是否有出租车,在旅行途中将心情即时分享到微信朋友圈,通过手机App获取最新的股市动态。
Value意味着数据的价值密度之低。数据的价值与Volume(大容量)和Variety(多样性)息息相关。一般来说,数据的价值主要取决于事件发生的规律和概率,因此通过收集尽可能多的数据并且进行长时间的存储能够提高数据的价值。但是,存储的数据量越大,真正的有价值数据却越少,因此运用大数据技术提取有价值的信息变得尤为重要。
三、大数据的应用
目前,教育、医疗、零售、电信、政府办公等已经成为了大数据发展应用的重点领域,“大数据+”一词也应运而生。大数据技术的应用具有很大的前景,也必将是未来各行各业发展的主要趋势。随着理论研究的完善、技术的发展、环境的成熟,大数据技术必将开创一个产业革新的全新时代。
(一)教育
尽管大数据技术在互联网等行业的应用中取得了突出的成绩,但在教育领域仍然处于初步探索阶段。随着高等教育的普及和信息技术的不断发展,各个高校都建立了自己的教务管理信息系统,这些系统涵盖了学生网上选课、成绩查询、证书查询、教师信息汇总等功能,大大提高了教学以及管理的水平,同时也积累了海量的教学数据。当前存在的问题是海量的教学信息没有被充分利用,仅仅是简单的查询和统计,无法获取隐含的大量信息,比如学生为何取得这些成绩,开设课程之间以及学生的成绩与课程的设置之间的联系。如何充分地利用这些资源,找出学生成绩之间、课程之间的联系,从而更好地方便学校安排教学任务,制订教学计划等工作,对学校教学工作起到积极的指导作用是目前需要解决的问题[4][5]。
1. 国外研究现状。芝加哥公立学校使用一个名为IMPACT(Instructional Management Program and Academic Communications Tool)的软件,通过学生信息管理,来追踪学生在学校的表现。密歇根大学开发学习者干预系统M-STEM Academy,该系统对工程系学生的课程完成情况、项目参与度等数据进行数据挖掘与分析[6]。北亚利桑那大学采用了 GPS(Grade Performance System),当成绩、出勤率、学术成果出现问题时学生会收到警告信息[7]。博尔州立大学开发了一个可视化协同知识的分析应用平台,应用到学生的协同知识建设活动中,它采用交互设计和信息可视化技术,以评估并提升合作者之间的认知。因此,国外的研究仅限于分析学生存在的问题并提供预警信息,并未有效利用采集的数据并且提供关键性的改进措施。
2. 国内研究现状。通过CNKI进行检索,以“学生行为分析”、“学习评价与预测”为关键词,检索到的大多都是关于学习行为分析与评价的理论研究,而这些理论主要通过发放问卷的方式来分析学生的学习行为,从而探索学习行为与学习成效的潜在联系。北京邮电大学采用分布式存储架构,建立了一个基于 Hadoop 技术的高校学生行为分析系统[8],通过采集、存储以及处理校园大数据环境中的各类数据,对学校的教育和教学决策起到了至关重要的作用。文献[9]中设计了一种基于 Hadoop 的远程教育海量资源存储和检索的方法,该架构使用 HBase 来存储远程教育资源,使用 Map Reduce 实现针对海量数据基于内容的检索。
传统课程上,成绩成为衡量学生学习情况的最重要标准。事实上,除了成绩与课程之间的关联之外,也可以通过大数据技术对学生展开学习行为、生活习惯乃至思想方面的分析,并对其未来发展方向进行预测,以便于学生尽早进行自我调整,也利于学校的教育优化与管理[10][11]。国内某所高职院校通过分析学生“线下”、“线上”的实际消费情况,指出学生消费行为上存在的问题,引导学生树立正确的消费观,并为学校对学生的教育和生活管理提供依据[12]。文献[13]强调了全国统一构建招生考试就业的大数据平台的迫切性,通过大数据分析了解人才市场的需求,进一步完善高校的专业设置,为毕业生就业指明方向。
国内此类研究主要集中在理论层面上,而学生行为分析技术的模型、应用、系统的研究尚处于起步阶段。虽然部分研究使用了先进的分布式存储架构,很大程度上提高了项目的效率,但依然是数据库操作的延伸,没有涉及到大数据应用的本质:即根据一个表面现象,找出事物内部的本质关系。
(二)医疗
医疗大数据作为大数据增长速度最快的领域之一,它的数据来源主要包括四类:制药企业/生命科学、临床医疗/实验室数据、费用报销/利用率以及健康管理/社交网络[14]。
1. 国外/境外研究现状。奥巴马政府先提出精准医疗计划(PMI),之后开启了“精准医疗组”(Precision Medicine Cohort)项目,该数据库涵盖了至少100万位来自不同种族、不同种族、不同性别和不同年龄段的志愿者的详细健康信息(医疗记录、基因组测试、移动健康数据等)用于疾病的研究与个性化药物的研发[15]。谷歌流感趋势(Google Flu Trends)利用关键词搜索技术实时、有效地预测流感类疾病,避免疾病的扩散,以此推进流感的研究[16]。英特尔携手Cloudera帮助美国大型医院集团有效预测患者的住院时间,从而合理地分配资源[17]。谷歌人工智能引擎DeepMind宣布与英国Moorfields眼科医院合作,通过对英国国家卫生服务体系(NHS)提供的超过100万份的匿名眼部扫描文件进行数据分析和挖掘,创造出能更快、更早地检测出老年性黄斑变性(AMD)和糖尿病性视网膜病变(DR)的算法,从而降低病患的失明风险[18]。英国政府和李嘉诚基金会联合投资9000万英镑,在牛津大学成立全球首个综合运用大数据技术的医药卫生科研中心。中心将通过搜集、存储和分析大量生物医疗数据,与业界共同界定新药物研发方向,处理新药研发过程中的瓶颈,并为发现新的治疗手段提供线索。香港理工大学的癌症基因组通过建立一个创新的大数据分析平台,分析基因之间的相互作用,确立由核磷蛋白为导向的治疗策略,揭示在癌症中基因网络的失控机制。
如今,国外的医疗大数据已经广泛地应用于临床诊断、疾病预警和药品研发,美国医疗大数据的应用正在日趋成熟,而欧洲和亚洲的研究还处于初期阶段,发展相对滞后。
2. 国内研究现状。目前,武汉协和医院已经与市区八家社区卫生服务中心建立远程遥控联系,正在进一步实现提高家庭护理比例和门诊医生预约量的目标[19]。北京大学医院、北京大学计算机中心和北京哈维香农信息技术有限公司共同建立了“北京大学医院健康大数据研究中心”,该中心以人体健康、疾病预防诊疗信息为基础,实现及时对人体个体及其群体进行健康评估、疾病诊断防治的目的。
國家卫生综合管理信息平台是我国卫生信息资源管理的重要组成部分,实现了医疗卫生机构统计数据和各级卫生行政部门在线汇总数据,仅在当前开始运行阶段,就已采集传染病信息5000多万条、突发公共卫生事件信息20 多万条、近500万人电子健康档案数据、300多万人新农合数据近4000万条、1000多万人的诊疗数据[19]。
我国虽然具有庞大的医疗数据,但是当前的现状是医疗数据地域和行业分割严重:医疗信息系统覆盖范围有限,信息标准尚未普遍采用,数据采集和质量保证方面仍有很多困难有待克服;国家各级信息平台尚未连通,数据汇总存在障碍[20]。
(三)零售业
大數据在零售业方面的应用已经开始影响我们的日常生活,并且渐渐改变我们原有的生活模式。当你在淘宝搜索某件商品后,在浏览其他网站时总能出现同类商品的促销广告;当你在网易考拉购买某件商品后,你的网易邮箱总能收到相关商品的广告邮件;当你在京东浏览某件商品后,浏览器的右侧会给出相似商品的价格。零售业的商家通过大数据有效地分析顾客的消费习惯,更好地了解消费者的心理,从而洞悉商机,制定营销方案,并且通过监控营销活动的效果,实时调整营销策略,最终达到提高盈利的目的[21][22]。随着大数据技术的不断发展,国内外零售业的营销模式正在发生一系列的变化。
1. 国外研究现状。在连锁零售业中,英国最大的连锁超市Tesco已经开始运用大数据技术采集并分析其客户行为信息数据集,从而得出特定顾客的消费习惯、近期可能的消费需求等结论,以此来制定有针对性的促销计划并调整商品价格[23]。美国Target折扣连锁店通过分析顾客的购买记录推断出女孩已怀孕,因而给她邮寄了婴儿和孕妇服装优惠券[20]。全球零售业巨头沃尔玛在对消费者的购物行为进行大数据分析后,发现男性顾客在购买婴儿尿片时,常常会搭配几瓶啤酒来犒劳自己,于是将啤酒和尿布摆放在一起进行促销,这就是经典的“啤酒+尿布”案例。通过大数据技术分析消费记录并且结合当下的环境因素,可以发现特定环境下顾客的需求并增加特定商品的库存以防止脱销,其中沃尔玛超市在飓风来袭前将Pop-Tarts饼干和水捆绑销售便得益于该分析[24]。梅西百货根据需求和库存的情况确立实时定价机制,该公司基于SAS的系统对多达7300万种货品进行实时调价。
总体而言,国外的零售业的正在依托大数据进行营销模式的变革,为整个零售业带来新的发展机遇。
2. 国内研究现状。紧跟亚马遜书店,国内的图书电商巨头当当网也开设了第一家O+O实体书店。当当实体书店的选书团队根据当当网的大数据筛选结果进行挑书,并且根据当地读者的文化水平及读书爱好等数据对读者进行精准推送,无形之中减少了读者的挑选时间[25]。而基于大数据、有针对性备货的销售模式有利于解决传统书店长期存在的图书积压滞销问题。北京朝阳大悦城是一个传统零售业有效运用大数据技术的成功案例。大悦城利用POS机系统、客户关系管理系统(CRM)、消费者调研结果、外部经营环境数据构建立体的全方位的数据体系,运用“多维度的大数据分析方法”对每一个商户在各维度中的表现进行精准赋值,并且结合商户的销售业绩和成长值进行店铺调整,最终提高经营业绩[26]。阿里巴巴在其一年一度的光棍节购物狂潮前利用预测数据提前让商家和制造商知道顾客需要什么商品,避免出现库存不足的情况[27]。京东商城根据顾客的购买行为(在首次浏览商品和最终购买商品的期间浏览了多少同类型的商品以及购买之前的等待时间),分析出顾客的购物心理,从而在进行促销活动的时候根据顾客心理做到产品精准划分、客户划分,真正实现精准营销[28]。
我国实体零售业的变革创新和电子商务零售业的蓬勃发展都得益于大数据技术,零售业不再是要求消费者自己寻找需要购买的商品,而是知道消费者需要什么商品,积极满足消费者的个性需求,通过精准营销提高销售额和企业的竞争力,实现双赢。
四、结论
大数据技术的兴起正在改变着我们的生活、工作和思维方式,正如McKinsey所说:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素”。医疗大数据的应用为疾病的预防提供了保障,有效地减少了疾病的传播,延长了病患的寿命;教育大数据的应用让学生更好地进行自我管理,提高学习效率,同时也有利于学校教学工作的统筹安排;零售业大数据的应用改变了传统的营销模式,通过满足顾客的个性需求实现精准营销,为企业带来了巨大的利益。但是,大数据在广泛应用的同时必然存在着一系列的问题,例如数据信息被盗用,数据处理速度无法满足数据量的增长。就全球大数据的发展趋势而言,克服大数据带来的不利因素,推动大数据背景下的产业革新已经成为社会发展的必然趋势。
参考文献:
[1] 陈吉荣,乐嘉锦. 基于hadoop生态系统的大数据解决方案综述[J]. 计算机工程与科学,2013(10):25-35.
[2] Tolle, K. M., Tansley, D. S. W., & Hey, A. J. G. The fourth paradigm:data-intensive scientific discovery [J]. Proceedings of the IEEE,2011(8):1334-1337.
[3] Demchenko, Y., Laat, C. D., & Membrey, P.Defining architecture components of the Big Data Ecosystem[J]. International Conference on Collaboration Technologies and Systems,2014(67):104-112.
[4] 永亮,符传谊. 数据挖掘技术在选课系统中的应用[J]. 微型电脑应用,2009(8):61-62.
[5] 孟小峰,慈祥. 大数据管理:概念、技术与挑战[J]. 计算机研究与发展,2013(1):146-169.
[6] Davis, C. S., St. John, E., Koch, D., Meadows, G., & Scott, D. Setting Sail for the Future Leveraging Diversity for A Stronger Crew[M]. Making academic progress:the university of michigan stem academy,2017.
[7] Picciano, A. G. The evolution of big data and learning analytics in american higher education[J]. Journal of Asynchronous Learning Networks,2012(4):9-20.
[8] 潘奇. 基于Hadoop技术的高校学生行为分析系统研究与实现[D]. 北京:北京邮电大学,2015.
[9] 朱晓丽. 基于hadoop的远程教育海量资源存储方法研究[J]. 山东广播电视大学学报,2012(3):26-29.
[10] E Science. Special Online Collection:Dealing with data[EB/OL]. [2017-08-18]. http://www.sciencemag.org/site/special/data/.
[11] Casado, R., & Younas, M. Emerging trends and technologies in big data processing[J]. Concurrency & Computation Practice & Experience,2015(8):2078-2091.
[12] 梅磊. 大數据背景下高职院校学生消费行为分析及其正面引导策略——基于四川文化传媒职业学院[J]. 中国教育信息化,2012(21):60-63.
[13] 王雪,姚文静. 构建招生考试就业服务大数据平台[J]. 农村经济与科技,2016(18):189-189.
[14] 张振,周毅,杜守洪,等. 医疗大数据及其面临的机遇与挑战[J]. 医学信息学杂志,2014(6):1-8.
[15] Khoury, M. J., & Evans, J. P. A public health perspective on a national precision medicine cohort:balancing long-term knowledge generation with early health benefit[J]. Jama,2015(21):2117-2118.
[16] Araz, O. M., Bentley, D., & Muelleman, R. L. Using google flu trends data in forecasting influenza-like-illness related ed visits in omaha, nebraska[J]. American Journal of Emergency Medicine,2014(9):1016-1023.
[17] 劉文生. 英特尔:领航医疗大数据[J]. 中国医院院长,2017(4):66-69.
[18] BBC NEWS. Google's DeepMind to peek at NHS eye scans for disease analysis[EB/OL]. [2017-08-18]. http://www.bbc.com/news/technology-36713308.
[19] 周光華,辛英,张雅洁,等. 医疗卫生领域大数据应用探讨[J]. 中国卫生信息管理,2014(4):296-300.
[20] 沈韬,崔泳. 医疗大数据:期望与现实[J]. 中国数字医学,2015(7):2-4.
[21] PR Newswire. Global big data in retail report 2015-2020:Market analysis, companies, solutions, and forecasts[EB/OL]. [2017-08-18]. http://www.prnewswire.com/news-releases/global-big-data-in-retail-report-2015-2020-market-analysis-companies-solutions-and-forecasts-300150594.html.
[22] 许明星. 大数据在零售业营销中的应用分析[J]. 物流工程与管理,2014(9):187-190.
[23] 程学旗,靳小龙,杨婧,等. 大数据技术进展与发展趋势[J]. 科技导报,2016(14):49-59.
[24] 陈晓,孙韬. 大数据对零售业营销策略的影响[J]. 金融经济:理论版,2015(18):27-28.
[25] 陈思淇, 叶新. 试析电商企业开设实体书店的模式创新——以当当网为例[J]. 出版广角,2017(3):36-38.
[26] 王海峰,卢小倩. 大数据驱动下传统零售业的精准营销——以朝阳大悦城为例[J]. 产业与科技论坛,2016(17):20-22.
[27] Financial Times. Alibaba taps user data to drive growth spurt[EB/OL]. [2017-08-18]. https://www.ft.com.
[28] 冯薛. 大数据时代京东商城营销模式创新分析[J]. 港澳经济,2016(24):40-40.