大数据理念在氨基酸产业数据共享中的应用
2018-12-26王森,张昕,王健
王 森,张 昕,王 健
(吉林大学 生物与农业工程学院,吉林 长春130022)
我国已成为氨基酸产品的“世界工厂”,2017年我国氨基酸工业总产量达到542万t,占世界总量的2/3以上。氨基酸生产的主要方法有提取法、化学合成法和发酵法[1]。自19世纪日本协和发酵公司用发酵法生产谷氨酸以后,发酵法生产氨基酸得到快速普及,到目前为止绝大多数氨基酸都已能用发酵法生产。尽管我国发酵法生产氨基酸产量很高,但还不是发酵强国,产品相对单一,主要集中在谷氨酸、赖氨酸和苏氨酸上,其他小品种、高附加值氨基酸产量比较低,因此整个产业急需技术提升。发酵过程中参数具有多样性、时变性、相关耦合性与不确定性,因此采用精确的动力学模型设计来实现过程优化是极端困难的,要实现发酵过程的稳定控制,就需要打破从生命科学上游研究到下游生物应用研究的多学科技术壁垒,实现从基因、细胞到发酵过程的跨领域、跨学科研究,也须改变传统的数据处理模式和思维方式[2]。有效地组织和管理数据信息,实现过程数据共享,对氨基酸发酵研究和应用具有重要的意义和价值。
通常状态下,大数据是指那些无法在固定时间内用计算机技术进行感知、获取、管理、处理和服务的数据。大数据共享平台就是借助一定的技术手段,面向全社会及各行各业以公用事业的方式提供数据资源的统一开放平台体系。笔者以氨基酸发酵数据共享的需求为依托,引入了大数据的理念,分别从数据的获取、储存、分析、应用和管理层次进行分析,提出了一种基于大数据理念的氨基酸发酵数据共享平台框架。
1 氨基酸发酵数据共享的需求与可行性
1.1 行业需求
当前任何行业的发展都难以脱离各类数据的支撑,发酵行业也是如此。据中国淀粉工业协会报道,近几年我国新上了几个玉米深加工项目,如绥化象屿金谷生化科技有限公司的150万t玉米深加工项目、通辽梅花生物科技公司的90万t玉米深加工项目、黑龙江伊品生物科技公司的90万t玉米深加工项目等,下游大多为各种氨基酸产品。氨基酸发酵过程是一个复杂的生化反应过程,是一种高度非线性、时变的动态过程。影响菌体生长的因素有很多,主要有基质和营养物质的成分、浓度、压力、进气量、温度和pH等。影响产物形成的因素主要有基质和菌体的浓度、产物、副产物和中间产物的浓度、菌体的质量、温度、pH和溶解氧等[3]。这些因素相互作用,使得发酵环境处于动态变化中,从而改变生物的代谢过程,影响目的产物的合成。随着计算机技术的迅速发展,氨基酸发酵已普遍采用计算机在线控制,在发酵罐上都配置有温度计、溶氧电极、pH电极、空气流量计和压力传感器[4-6]。近年来,随着近红外光谱检测技术的普及,发酵过程中目的产物和副产物也可以精确在线检测,这使得氨基酸发酵过程的数据成几何倍数增加。但我国发酵数据利用率较低,很多数据只在某一个企业或某一个项目中得以利用,数据的价值并未得到充分挖掘,因此,需要引入大数据理念,建立数据共享机制,实现数据的重复利用,挖掘数据的潜在价值。
1.2 科研需求
现今在全国乃至全世界的科研领域很少有单一学科,多数为交叉领域的科研[5]。氨基酸发酵数据共享平台的建立可以有效的挖掘数据价值,避免数据资源重复获取和投资建设,是现代科学数据密集型研究的重要基础。氨基酸发酵数据共享可以为以下科学研究提供数据支持。
1.2.1 发酵工艺的改造
发酵工艺改造就是通过控制发酵过程中各种参数,为微生物提供一个最有利于产物合成及积累的培养环境。大数据共享可以打破目前靠人工与专家经验来判断的局限性,突破传统发酵过程中基因修饰、代谢流分析、氨基酸发酵过程数据相互孤立的状态,为知识的发现、获取提供方法和途径,实现智能化决策。
1.2.2 发酵设备的改造
为了更好地适用发酵过程,发酵设备和过程检测仪器可以根据平台共享的氨基酸发酵数据设计出更加适合本产品的设备和仪器,无需花费大量时间探索发酵过程,进而节约生产成本。
1.2.3 原辅料质量控制
现在氨基酸发酵过程多采用智能检测设备进行在线检测,发酵过程的稳定性十分重要。原辅料质量的细微变化,将会在发酵过程中进一步放大,最终产物将会发生更大变化,进而有可能超出在线检测设备的监测范围或超出在线监测设备的最佳检测范围。因此对发酵过程中添加的各种原辅料质量进行严格控制,可以避免给发酵过程造成不必要的损失。
1.2.4 近红外模型的建立
随着检测技术的发展,以近红外为代表的二次检测技术快速兴起。氨基酸发酵平台可以为近红外模型的建立提供大量原始数据,使得建模成本大大降低。
氨基酸发酵数据共享平台、开放的数据资源及大数据在线云计算服务,可为相关研究提供定制化的个性服务,极大减少发酵过程中研究数据寻觅、下载和处理所消耗的时间,节省购买数据所产生的费用。同时,平台也能为众智、众创大数据的挖掘分析,实现数据驱动的知识发现,提升科学大数据的核心价值,实现数据的增值创造条件。
1.3 可行性分析
氨基酸发酵行业经过近几十年经验积累,已拥有大量的发酵过程数据,而传统数据分析方法无法使发酵数据的作用得到真正发挥,并且和氨基酸发酵行业相配套的产业对氨基酸发酵过程数据的需求越来越大,如近红外在线检测模型的建立,发酵过程辅助仪器的设计,原辅料质量的控制等。近年来,计算机技术、大数据技术和云计算技术的兴起,为氨基酸发酵数据存储、分析及共享平台的建立提供了技术支持。同时,平台还可进行实时数据补充与更新,从而实现氨基酸发酵行业内部进行数据交换、信息共享,达到共赢和行业快速发展的目的。
2 氨基酸发酵数据共享平台框架设计
依据氨基酸发酵数据共享的需求,结合近年来蓬勃发展的大数据的概念和技术,分别从数据的获取、储存、分析和应用层次,提出了一种基于大数据理念的氨基酸发酵数据共享平台框架,如图1所示。
图1 氨基酸发酵大数据共享平台框架Fig.1 Amino acid fermentation big data sharing platform framework
2.1 数据的获取
大数据经济发展的前提是大数据,即跨部门公共数据的关联和广泛应用[7]。氨基酸发酵数据的获取也是一个跨行业广泛关联的过程,氨基酸发酵大数据不仅包含发酵过程数据,还包含了大量其他类别的结构化/非结构化数据,如菌种改造、原辅料数据、发酵仪器参数等。因此,氨基酸发酵数据的获取需要综合考虑多源数据的来源、获取方式和获取内容,主要有
1)社会公共数据。能够组织和整合那些有开放数据意愿的行业协会所掌控的数据资源,这些协会都具有推动部门、地区、行业、企业之间的横向联系,促进本行业和相关行业的协调发展能力。
2)科研数据。随着国家对氨基酸发酵科学研究重视程度的提高,在国家自然科学基金、“863”计划、“十三五”计划等的支持下创建了许多氨基酸发酵项目,同时也产生了大量数据。这些项目体现了氨基酸发酵行业高度,因此数据具有很高的参考价值。
3)企业数据。对于氨基酸发酵行业来说,企业是最大的数据产生地,因此企业数据的获取对数据库的补充具有重要意义。
4)个人数据。个人由于人力、财力和物力相对比较薄弱,需要从共享平台中取用数据,以减少成本,但其研究过程中产生的大量数据,可以注入平台,以增加平台数据的丰富性。
5)历史数据。氨基酸发酵行业经历几十年的发展,在此期间产生了海量数据。各种期刊、书籍都应在大数据时代发挥更大的价值。
2.2 数据的储存
高效、可靠和低成本的存储与管理模式是氨基酸发酵数据处理的关键技术,更可以为后续的深度挖掘和科学分析提供保障。考虑到氨基酸发酵数据来源不同,为了避免数据重复建设和信息孤岛,需要对获取的发酵数据进行整合,并对信息资源的存储进行重新部署[8]。氨基酸发酵数据的存储与管理中,软件层面能满足结构化数据、半结构化数据和非结构化数据的存储,硬件层面则需要合理利用底层的物理设备性能,满足上层应用对存储性能和可靠性的要求,因此最适合的方式是采用分布式数据存储进行管理[9]。
分布式数据存储,即在有需要的位置设置存储设备,数据就近存储,带宽没有太大压力。可采用多套低端、小容量的存储设备分散部署,该方式具有明显的优势,即设备价格和维护成本较低、对机房环境的要求也较低、管理方便等。分布式数据存储将数据分散在多个存储节点上,各个节点通过网络相连,对这些节点的资源进行统一的管理,符合目前我国氨基酸发酵数据来源复杂的现状。
分布式数据库的种类繁多,常见的分布式数据库 有 MySQL,Oracle,SQL Server,MongoDB,HBase和 Big-Table等[10]。其中,MySQL,Oracle和SQL Server是行导向的数据存储系统,是传统关系型数据库管理系统在分布式环境上的应用;MongoDB旨在为Web应用提供可扩展的高性能数据存储解决方案,可运行在Linux,Windows或OS X平台;Big-Table和HBase是列导向的数据存储系统,这类数据库提供了很好的储存容错能力和快速访问大量稀疏文件的能力。
由于氨基酸数据包含的数据结构复杂、种类繁多,氨基酸发酵领域不同业务对数据需求差异也较大。因此,根据数据量的大小、存储模型、读写频度和响应时间等因素,结合大数据存储技术,建立氨基酸发酵数据的综合存储体系,进行数据优化管理。结构化数据可采用MySQL,Oracle和SQL Server等行式数据库进行存储,非结构化数据可采用GFS和HDFS等分布式文件系统进行存储,半结构化数据可采用Big-Table和 HBase列式数据库进行存储[11]。
2.3 数据的分析和挖掘
氨基酸发酵数据的分析与挖掘是发掘数据价值,支撑优化分析,辅助科学决策的关键技术。对于规模巨大、结构复杂、变化迅速的氨基酸发酵数据,其处理亦面临计算复杂程度高、任务周期长、实时性要求高等难题。为了解决这些难题,可以根据实际需求选择合适的分析手段,发现和解决数据分析过程中的各种问题。
氨基酸数据平台选用监督学习和无监督学习算法进行数据挖掘,大数据挖掘建模是数据智能的核心。随机森林、支持向量机、神经网络、聚类算法、决策树和异常检测算法等工具箱,可以为用户提供机器学习算法支撑。Web的图形化数学公式编辑功能,支持用户方便快捷地定义丰富的算法模型,提供应用程序编程接口作为开放接口,支持用户可编程的自定义算法实现[12]。支持对历史数据和实时数据进行数学建模和挖掘分析,满足不同行业、不同科研课题对数据的使用要求。
2.4 数据的应用
建立氨基酸发酵数据共享平台的基本理念是方便社会公众利用数据资源,主要应用在以下几方面:原料采购、工艺优化、生产制造、设备制造、菌种改造、成本控制和精准营销,所以需要建设与之配合的接入应用中心,否则即便存储和积累了海量发酵数据,数据共享平台存在的价值也将被大打折扣。接入的应用中心应具备以下功能:
1)数据的导入和导出功能。以方便科研机构或企业向数据共享平台中注入数据,同时为社会公众从数据资源平台中获取数据资源提供通道。
2)提供数据接口和应用程序接口。共享平台具有的算法分析只能满足大部分客户的需要,部分用户可根据自身用途编程自定义算法或者开发适合的APP,以达到数据挖掘的目的。
3)可视化展示。可视化利用分析和开发工具发现其中未知的信息和知识,并以一种易于理解的视觉方式展示出来,如树状图、循环网格图、平行坐标图和折线图等,它能够帮助大数据获得完整的数据视图并挖掘数据的价值。
4)数据审查。主要依照数据整理的需要,在安全监管的前提下,针对导入和导出数据的行为是否合法、科研机构或企业注入的数据格式是否符合标准等进行监督和审查,保证氨基酸发酵数据共享平台的安全性和运行的流畅性[13]。
2.5 数据的管理
由于数据大多来自科研机构、企业和社会开放数据,导致平台数据来源复杂、格式不统一、质量参差不齐、动态性较差等,所以必须对数据进行甄别、降噪、分析和可视化处理,以全生命周期管理为目标,建设一套适合数据共享交换的标准。全生命周期管理就是将数据治理贯穿整个数据共享平台的各层之中[14],为平台提供数据标准、数据接入规则、质量标准定义、数据归档规则和服务记录等管理规则,通过这些规则,将整个氨基酸发酵数据共享平台的各松散部分紧密结合成为一个整体,保证数据共享平台在全生命周期中的安全可控。数据全生命期管理核心如图2所示。
图2 全生命期管理Fig.2 Full life management
3 结 论
氨基酸发酵数据的共享,虽然有着明显的优势、诱人的前景,但新生事物的发展总是曲折的,仍有很大阻力需要克服。发酵数据的开放,由于面临安全、所有权、隐私和利益交换等方面障碍,需要通过政府主导,建立相应激励机制和健全相应法律法规,以提高全社会共享数据的意愿。本研究以氨基酸发酵数据共享的需求为依托,引入了大数据的理念,提出了一种氨基酸发酵数据共享平台的框架,在理论与技术层面上为氨基酸发酵数据的共享提供了一种模型,以实现数据的共享及其潜在价值的挖掘。
(责任编辑:应艳杰)
沈寅初院士作“丙烯腈水合酶的研究开发”专题讲座
2018年11月20日,沈寅初院士为浙江工业大学生物工程学院师生作了“科学思维与方法”系列讲座的第四讲——“丙烯腈水合酶的研究开发”,学院一百余人参加了本次讲座。
讲座中,沈寅初院士回顾了从1980年代中期开始带领团队对丙烯腈水合酶的研究开发历程。他从丙烯腈水合酶研究课题的可行性分析谈起,讲到了如何成功地从泰安地区土壤中筛选到高活力的产腈水合酶微生物,并带领团队历经3次5年攻关,成功选育了高产酶量的优良微生物菌种,从而研究成功了微生物催化法生产丙烯酰胺的一整套高产、高效的生物催化产业化技术。该技术首先在浙江省桐庐汇丰生物化工有限公司中试成功,建立了我国第一套利用生物催化技术生产大宗化工原料的工业化装置,开创了生物催化大规模生产大宗化学品的先河,该技术在全国迅速推广。在讲座中,他勉励年轻人要珍惜当下,脚踏实地,储备扎实的基础知识,选好研究课题,培养坚韧的专业精神,积极投身科学研究工作。
此次讲座为“科学思维与方法”系列讲座的第四讲,也是该系列讲座的最后一讲。“科学思维与方法”系列讲座从2016年11月首场报告开讲,历经两年时间,旨在总结提炼沈寅初院士长期科研工作的思维、方法,以期拓展师生的学术视野,提高师生的科学素养,增强师生从事科研工作的使命感和责任感。