基于大数据技术的药用植物研究成果管理平台设计
2015-11-23蒋发俊黄柏福
蒋发俊 覃 琳 黄柏福
(广西壮族自治区计算中心,广西 南宁 530022)
基于大数据技术的药用植物研究成果管理平台设计
蒋发俊 覃 琳 黄柏福
(广西壮族自治区计算中心,广西 南宁 530022)
药用植物研究是一门数据量巨大而又复杂的学科, 大量专业的研究数据不仅难于记忆查找,而且也不利于成果的深度开发利用。通过设计开发药用植物研究成果管理平台,将大数据技术等现代互联网技术引进到药用植物研究领域,把药用植物研究过程中产生的数据、资料、图片等结构化及非结构化的研究成果存储到管理平台中并通过数据整理、清理、装载、转换等大数据算法技术进行数据挖掘分析形成规范化、模块化的数据仓库,最终在平台中提供数据采集、统计查询、分析预测等功能服务,为药用植物研究成果的管理提供科学有效的办法,创造更高的社会价值。
药用植物;大数据技术;研究成果;数据挖掘;分析预测
1 药用植物研究现状
我国自古以来就有着药用植物研究与应用的悠久历史,据统计目前我国境内有超过 12000种的药用植物,随着中药材在医学界的广泛应用,药用植物研究已经成为了现代医药研究的热点。
通过实际调研发现,现阶段药用植物研究成果记录缺乏先进的方法和技术手段,大部分仍然使用几十年前手写记录的方式。大量的研究信息和复杂的原始试验数据记录之后就堆积在档案室无人问津,既不利于中医药事业的传承交流,也给药用植物研究成果的查询应用带来了很大的困难。同时由于研究成果除了文字、数字之外,还包含了图像、文本、报表等大量的非结构化数据,用于管理结构化数据的关系型数据库缺点以及局限性越来越明显。在不断增加的数据量和日趋的复杂数据结构等因素的影响下,原始药用植物研究成果势必要借助大数据、非关系型数据库等新技术进行管理、加工才能得到更加有效的资源加以利用,发挥其巨大的价值和效应。
基于这一目的设计了一个以大数据分析为核心,药用植物研究成果管理应用为目的药用植物研究成果管理平台,将大数据技术运用到药用植物研究领域,保存分析药用植物研究过程中产生的大量数据、资料、图片等结构化及非结构化研究成果,探索大数据技术在药用植物研究领域的应用。
2 平台调研分析
药用植物的研究包括了种子保存、活体试验、离体试验、病虫害研究、馏分试验以及标本保存各个阶段,每个阶段都有大量的实验数据和植物药理药性信息需要记录,而且信息资源具有有别于其他学科信息资源的典型大数据特征:数量庞大又极具复杂性。
药园植物研究涉及到的信息包括了植物的基本属性、生理信息、药用植物特性、地理分布、试验数据、图像信息、文件数据等多种结构化和非结构化数据,同时由于各阶段工作的相对独立性,研究过程中又会产生大量的重复数据。
要实现药用植物研究成果的管理利用,首先就需要解决大量研究成果的数据化、数字化以及存储分析问题,为此首先要整合药用植物六个不同研究阶段所产生的数据, 把每个研究阶段的大量结构化及非结构化信息进行数据化、数字化并加以组合去重,然后把其中包含的不同内容进行关联,形成蕴含丰富内容的大数据资源。
大数据技术的核心作用在于从数据里面找出有价值的东西来,迅速完成数据价值的提纯。通过数据挖掘、数据可视化等技术对海量药用植物研究成果进行整理、清理、装载、转换,形成规范化、模块化的数据仓库,把复杂数据里面的的知识挖掘出来,这样我们才可以对研究内容进行利用,进而提供更多的信息服务。
3 平台设计
药用植物数据管理平台的设计需要满足数据集成、分析处理、综合查询、分析预测及辅助决策等功能,所以在设计过程中首先要对药用植物研究过程进行数据建模选择合理的业务模型。
根据药用植物研究工作的业务活动流程及其研究成果类型,我们把药用植物信息分成了基本属性、地理位置、生理特征、药用特性、研究成果、文件资料、图像资料七大数据模块。基本属性包含药用植物的中文名、拉丁名、科属种等基本信息;地理位置包含植物的分布地点、采集地点、保存地点信息;生理特征包含植物的形态习性、生长周期信息;药用特性包含植物的药用部位、药材名、药理作用、临床应用信息;研究成果包含研究阶段的各种实验数据以及结论等内容;文件资料包含和研究有关的相关文献论文;图像资料包含植物各生长期以及标本等图像信息。
每个模块数据都分别存储于基本属性数据库、地理位置数据库、生理特征数据库、药用特性数据库、研究成果数据库、文件数据库、图像数据库七个独立的子数据库。分数据库的模式不仅可以保证系统拥有更快的响应速度,而且各个子库的内容既可以独立使用也可根据实际需要互相结合形成更加完整全面的数据信息。
按照数据模块的划分,管理平台分为数据采集子系统、地理位置子系统、统计查询子系统、生理特征子系统、药用特性子系统、趋势预测子系统、文件子系统、图像子系统,每个子系统都提供特定的功能,方便不同平台使用人员根据实际需求快速地找到所需信息。药用植物研究成果管理平台的整体系统架构图如图1:
图1 平台系统架构图
大数据平台的搭建,使用了针对超大数据集合的低延迟集群分布式计算系统Spark作为基础引擎。Spark是一个基于内存计算的开源的集群计算系统,提供了多种数据处理函数,包括基本汇总、map-reduce等,同时还提供Count, collect, reduce, lookup, save等多种 actions。通过使用这些多种多样的数据集操作类型来构建大型的、低延迟的数据分析应用程序,给平台上层应用提供了方便。平台利用 Spark强大的数据处理能力来对采集数据进行分布式数据处理、数据异构、数据可视化及数据挖掘等操作,最终提供数据分布式索引、统计查询、分析预测等功能。
在数据安全方面还设计了备份恢复功能,自动对平台上重要的数据定期进行备份,当数据因故障丢失或者顺坏时平台能够及时地通过备份数据库进行恢复。同时平台设计过程中预留了数据接口以及二次开发接口,方便与其他系统的集成和今后对平台功能进行升级。
图2 平台系统分层结构图
4 平台功能介绍
药用植物研究成果管理平台完成后,最终将实现集科研究数据采集、信息发布共享、统计查询、分析预测于一体的目标,通过现代软件技术及大数据技术帮助研究人员提高药用植物研究工作的质量及效率;研究成果的数字化可以极大程度地避免以往纸质文件或 Excel记录容易丢失难以查找的情况再次发生;而原始的研究成果经过平台海量数据挖掘分析整合处理之后,将会得到更加简单规律且易于理解的高价值数据,便于药用植物研究成果的分享及深度利用。
目前系统架构的搭建、数据库设计、各子系统的开发和基础数据录入都已经全部完成,药用植物研究成果管理平台中总共保存了接近3000条的植物研究数据,包含药用植物的基本属性、药用特性、生理特征、地理分布、实验数据、图像、文件等内容,为平台的大数据分析挖掘提供了数据基础。
图3 平台已录入的药用植物列表
通过各个子系统,平台已经实现了数据采集、信息发布共享、统计查询、地理位置分析、趋势预测等功能。其中数据采集除了可以通过人工录入外,我们还提供了批量导入的接口,方便对历史研究数据的快速处理;统计查询功能能够通过图表、饼状图以及柱状图的方式对药用植物科、属、种、分布区域等内容归类展现;地理位置分析功能结合百度地图进行显示,药用植物分布一目了然;趋势预测可以通过植物的地理位置、生理特性等信息分析预测植物分布范围、生长规律、生命周期甚至植物进化趋势等内容。
图4 植物地理位置分布功能
5 结束语
借助药用植物研究成果管理平台,利用 Spark大数据技术来对药用植物研究成果进行保存和整理挖掘分析,不仅提高了药用植物研究工作的效率,而且通过对原始数据的深度挖掘分析归纳,有效解决了传统的纸质研究成果查询不便、难以阅读等问题,提高了研究成果利用价值价值。
在下一步的研究过程中,我们将继续探索优化大数据模型算法,提高平台数据挖掘处理能力,通过搭建分布式数据库、数据集群等措施提高系统并发处理能力,进一步改善平台的不足及缺点,提供更加全面高效的服务。
大数据产业已经成为了一个新兴的国家战略性产业,而大数据在药用植物研究领域还处于起步阶段,今后还将会有更大的研究发展空间,相信借助新技术新应用的帮助,药用植物研究成果的利用一定能够更上一个台阶,在推进药用植物研究进步的同时产生更大的社会效益。
[1] 艾铁民.中国药用植物志.第 12卷[M].北京大学医学出版社, 2013.
[2] (美) Jiawei Han [加]Micheline Kamber [加]Jian Pei.数据挖掘:概念与技术[M].机械工业出版社,2012.
[3] 李智慧.大型网站技术架构:核心原理与案例分析[M].电子工业出版社,2013.
[4] (美) Holden Karau.Spark快速数据处理[M].机械工业出版社,2014.
Management platform based on the results of a large study of medicinal plants data technology
Medicinal Plant Research is a huge and complex amount of data subjects, data is not only a large number of professional studies find difficult to remember, but not conducive to the depth of exploitation outcomes. Through the design and development of medicinal plants research management platform, big data technology and other modern Internet technology into the field of medicinal plant research, the study of medicinal plant research data generated in the process, information, pictures and other structured and unstructured results of stored data management platform and through consolidation, cleaning, loading, and other large data conversion technology for data mining algorithms analyze a standardized, modular data warehouse, ultimately providing data collection, statistical inquiry, analysis and forecasting services and other functions in the platform providing scientific and effective way to manage medicinal plants research and create a higher social value.
Medicinal plants; Big data technologies; research; data mining; analysis and forecast
S567
A
1008-1151(2015)02-0038-03
2015-01-13
蒋发俊,供职于广西壮族自治区计算中心。