数据科学家在医学图书馆未来发展中的作用
2018-02-08陈励和
陈励和
数据科学家在医学图书馆未来发展中的作用
陈励和
广州市妇女儿童医疗中心图书馆,广东 广州 510623
大数据时代的到来催生了数据科学家,本文探讨了数据科学家积极主动地参与医疗机构高层的决策咨询,努力为解决大数据时代医学图书馆发展中的战略问题提供可持续发展的咨询报告,为宏观决策提供科学依据,对所服务的读者在使用图书馆资源和网上资源的过程中所产生的大量数据进行统一收集、统一分析,为订购医学资源提供咨询和依据,从繁杂无序的大量数据中找到有用的价值信息,并将这些有用的数据信息传递给高层决策者和用户,最终得以在读者使用中实现有用的价值。
数据科学家;大数据;图书馆;未来发展
大数据时代的到来给数据分析和挖掘带来相当大的难度。据“国际数据公司”(IDC)研究人员预计,到2020年全球每年产生的数据量将达到35ZB。这些数据如果刻成DVD光盘,把这些DVD光盘一张一张地叠加起来的高度是地球到月球的2倍[1]。这些繁杂巨大的信息数据依赖传统的人工分析方法已显得缓慢滞后,只依靠机器处理也难以适应大数据时代的信息需要。那些运用数据科学的方法进行收集数据、分析数据、研究数据、处理数据的数据科学家的出现,为大数据的研究与应用带来新的希望。
1 数据科学与数据科学家
1.1 数据科学
数据科学是关于数据的综合体或者是专门研究数据的一门科学,其研究对象是数据系统中的数据,是专门研究网络空间中的数据系统的规律、方法和技术。与我们所认知的自然科学和社会科学比较,其出现的时间还比较迟,它专门研究的是虚拟的数据。数据科学主要是为我们所认知的自然科学和社会科学研究提供一种全新的方法,称为科学研究的数据方法,其目的在于探索和提示自然界和人类行为的现象和规律。
1.2 数据科学家
数据科学家是由美国的Natahn Yau博士在2009年提出来的[2],目前还没有统一的定义。比较认可的定义是,数据科学家是指运用专门的统计分析、机器判断、分布式处理、综合评估等技术,从大量数据中提炼出对用户有意义的信息,以容易通用明了的形式传送给用户和决策者,并综合提炼出新的数据来应用服务的人才。数据科学家通过关注使用者提供的数据来进行综合分析,在更高层面上创造出不同特性的产品和流程,为使用者提供增值性的信息服务[3]。
2 数据科学家的素质和能力
2.1 数据科学家具备的素质
2.1.1 创业意识 数据科学家应该具备以繁杂、无序、海量的数据为核心进行创新性研发和提升的创业意识。亚马逊(Amazon)、谷歌(Google)、阿里巴巴(Alibaba)、脸书(Facebook)等都是基于对庞大复杂的数据进行收集、分析、整合、创新,进而产生出新型的服务型企业,都是数据分析和数据处理的研究人员通过艰苦探求才获得成功的。
2.1.2 探索精神 坚韧的探索精神是科学家不断进取的驱动力和创造力的根源,数据科学家的工作就是在庞大复杂数据中探求,具有强烈的探索精神才能驱动他们探求和研究问题实质,寻找问题的最佳答案,并把它们提炼为一组更加明了、清晰、可以验证的假设[4]。数据科学家的价值并不是单靠做简单的报表和PPT等材料提供给高层决策者,而是通过收集全体用户的标准、要求和流程等,对海量繁杂的数据进行再分析和加工,揭示出事物的内在联系,从而找出最佳的解决问题的方案,这需要数据科学家强烈的探求精神和严谨的工作态度。
2.1.3 广泛兴趣 具有卓越品质的数据科学家的兴趣和好奇并不是局限于他们所掌握的计算机科学、数学、统计学等与数据分析有关的学科,而是对文学、音乐、艺术、医疗、社会科学、自然科学等各个领域都拥有广泛的爱好[5]。美国的数据科学家大多数具有丰富的工作经历,他们具有实验物理学、计算机化学、数据统计学,甚至是生理学、神经外科学等工作的扎实经验和丰富理论。正因为他们具有广泛的探求精神和渊博的知识,在他们对不同领域数据的搜集、整合、分析、评估时,才能够发现常人难以发现的有价值的数据与观点,找出不同事件的发展特征和正在发生事件的趋势。
2.2 数据科学家需具备的技能
2.2.1 计算机科学与数据分析能力 掌握计算机编程技能和数据搜集、数据分析、数据储存、数据安全的技术。具备处理大数据所需要的Hadoop、Mahout等大数据和大规模的处理技术。
2.2.2 数据处理与统计分析能力 除了掌握数据搜集、数据分析、数据优化和数据综合能力外,还要具备数学、统计及综合的知识和技能,如SAS、SPSS等统计分析软件和与编程语言与运行环境相关的知识。
2.2.3 数据可视化能力 数据可视化能力的确是数据科学家非常重要的技能。信息数据的表达方法决定了信息数据的质量,数据信息可视化对信息的直接采用和对高层决策的利用都有很重要的作用。数据科学家要从零散繁乱的数据中进行采集和分析,使用应用程序接口(Application Programming Interface, API)将地图、图表、仪表盘(Dashboard)等数据服务统一起来,进一步完成分析结果可视化。
3 数据科学家是未来的战略资源
随着对大数据应用研究的进一步推广和应用,数据科学家对数据的收集、存储、处理、分析,以及对大数据的解决方案都会不断地深化,但是研究大数据最大的问题不是工具,而是人才短缺,作为大数据研究的引导者,社会上对数据科学家的需求也不断增长。大型互联网技术厂商易安信公司(EMC)在2013年发表的一份关于对美国、中国、英国、法国、印度等数据科学家的调研报告中得出,有2/3的参与者认为在未来几年中数据科学家仍然缺乏[4]。这一发展趋势进一步印证了2016年12月麦肯锡全球研究院发表的《分析的时代:在大数据的世界竞争》报告的结果:美国专业数据科学家每年仍缺口约25万人。预测未来的10年内,单是美国对这种人才的需求约为200~400万[6]。
社会上对数据科学家的需求在四、五年前还仅限于Google、Amazon等较大型的网络公司。随着大数据分析重要性的不断出现,重视数据分析、研究与应用的企业日益增加,一些发达国家如德国、日本、法国、美国、加拿大等都大量需要数据科学家,美国通过培养和高薪引进数据研究人员,来填充数据科学家数量不足带来的问题[7]。Facebook、IBM、Google、Amazon等大型企业对数据科学家的需求不断增加,据报道,日本新成立“数据科学家协会”,致力于企业内部培养“大数据”分析人才[8],未来数据科学家会成为一种战略资源。
4 数据科学家在医学图书馆中的作用
从Facebook、IBM、Google、Amazon等大型企业成功的例证上我们可以看出,支撑这些大公司业务提升与业绩的背后就是数据科学家。这些大型企业对于海量繁杂的数据不仅是进行收集、存储,而是通过一系列的研究与分析,将其变为有价值的数据信息,通过对结果的分析、产品的推荐为公司的发展起到了决定性的作用。就医学图书馆来说,数据科学家的作用也与其在网络公司起到的作用近似,主要体现在以下3个方面:
4.1 为医学图书馆决策服务
数据科学家积极主动地参与医学机构高层的决策咨询,为解决大数据时代医学图书馆发展中的战略问题提供可持续发展的咨询报告,为医学图书馆的宏观决策提供科学依据。数据科学家对读者的医学信息数据的需求和医学科技发展的走向有着很强的预测性,并且长期追踪医学图书馆的信息服务的发展热点和读者急需的医疗数据[9]。因此,数据科学家的研究成果往往能够直接为医学图书馆的发展提供决策性的建议,解决实际问题。
4.2 为医学图书馆的资源订购提供咨询和依据
医学图书馆是信息聚集、搜集、存储和传递的重要汇集地,大数据的收集、分析、利用、传递离不开数据科学家的参与。培养数据科学家成为今后医学图书馆在大数据时代生存发展的迫切任务。每个医学图书馆没有能力也不可能订购所有科研和医疗单位专家所需要的医学信息资源,单靠图书馆专家咨询和问卷调查来满足大部分用户对医学信息的需求是不可能实现的。这样,就需要数据科学家对读者在使用图书馆资源和网上资源的过程中所产生的大量数据进行统一收集、统一分析,探求出读者使用爱好和关注焦点的规律,并预测出未来的研究方向,依据研究成果来指导医学信息资源的订购工作,通过对数据的分析还可以预测到未来信息服务的方向。
4.3 提高医学图书馆资源利用率
依靠数据科学家所具备的数据收集、分析、综合的能力来挖掘知识,利用数据科学家的数据优化与综合能力、统计分析能力来整合知识,充分发挥数据科学家的可视化能力来传递和推广医学图书馆的信息数据知识,利用数据存储和数据安全技能保障信息数据和信息知识的安全。目前,大多数医学图书馆所订购的数据库利用率比较低,是因为其数据和信息的分析能力远远未能达到真正把读者需要的信息和知识挖掘出来[10]。如果不依靠数据科学家分析和整理出所订购的信息资源,医学图书馆所拥有的数据库即使再多,数据量再大,也很难让这些资源再增加价值。数据科学家的作用就是从繁杂无序的大量数据中找到有用的价值信息,并将这些有用的数据信息传递给高层决策者和用户,最终得以在读者使用中实现信息的价值。
5 小结
数据科学家的出现是数据科学不断完善和发展的具体表现,使数据科学变得更加直观和可视,也体现出数据科学研究的重要性。在大数据时代的今天,数据科学家为加快医学图书馆的发展、优化医学图书馆的管理有很大的促进作用,也为医学信息资源的优化订购、充分利用、个性化服务起到积极的推动作用。
[1] TAYLOR Chris. Career of the Future: Data Scientist [INFOGRAPHIC][EB/OL].(2012-01-13)[2017-11-22].https://mashable.com/2012/01/13/career-of-the-future-data-scientist-infographic/#Jpk5xwbSn8qW.
[2]王新才,丁家友.大数据知识图谱:概念、特征、应用与影响[J].情报科学,2013,31(9):10-14,136.
[3]赵振营.图书馆实施大数据战略实践路径分析[J].中国中医药图书情报杂志,2017,41(2):35-38.
[4] 朱扬勇,熊贇.大数据时代的数据科学家培养[J].大数据,2016(3): 106-112.
[5] 秦小燕,初景利.国外数据科学家能力体系研究现状与启示[J].图书情报工作,2017,61(23):40-50.
[6] 数据观.带你读懂麦肯锡大数据分析报告[EB/OL].(2017-02-10) [2017-11-22].http://www.raincent.com/content-10-8451-1.html.
[7]荣邵.人才大数据[J].国际人才交流,2016(1):21.
[8] 环球网.日本成立“数据科学家协会” 培养大数据分析人才[EB/OL].(2013-07-17)[2017-11-22].http://world.huanqiu.com/exclusive/2013-07/4140239.html.
[9] 陈振冲,贺田田.数据科学人才的需求与培养[J].大数据,2016(5):95-106.
[10] 杜栋,苏乐天.大数据时代信息管理面临的挑战和应对策略[J].工业和信息化教育,2015(11):87-89,94.
Role of Data Scientists in the Future Development of Medical Libraries
CHEN Li-he
(Library of Guangzhou Women and Children Medical Center, Guangzhou 510623, China)
The advent of the era of big data has given rise to data scientists. This article discussed that the data scientists actively participate in decision-making consultation of high-level medical institutions, make efforts to provide sustainability consultation reports for solving strategic problems in the development of medical libraries in the era of big data, which can provide a scientific basis for macro decision. It also pointed out that data scientists provide unified collection and analysis of the large amount of data generated by the serviced readers in the process of using library resources and online resources. offer consultation and basis for ordering medical resources, find a large number of useful and valuable data from the chaos of information, pass these useful data information to high-level decision makers and users, and finally realize useful value in the use of readers.
data scientists; big data; libraries; future development
陈励和,E-mail: ok22ok@163.com
R-058
A
2095-5707(2018)04-0006-03
(2018-02-21)
(2018-02-28;编辑:魏民)
陈励和.数据科学家在医学图书馆未来发展中的作用[J].中国中医药图书情报杂志,2018,42(4):6-8.
10.3969/j.issn.2095-5707.2018.04.002