烟草科研大数据资源体系的构建
2020-06-06汪志波王金棒洪群业冯伟华张仕华刘亚丽郑新章邱纪青
贾 楠,汪志波,王金棒,洪群业,王 锐,冯伟华,张仕华,刘亚丽,郑 路,郑新章,邱纪青
中国烟草总公司郑州烟草研究院,郑州高新技术产业开发区枫杨街2 号 450001
大数据是以容量大、类型多、增长速度快、应用价值高为主要特征的数据集合。由于互联网和信息技术的快速发展,人类社会已进入大数据时代。随着数据资源日益积累,数据已成为重要的基础性战略资源,数据的价值和数据管理的重要性成为研究热点。为落实国家大数据战略,推进创新型行业建设,2018 年烟草行业启动实施了烟草科研大数据重大专项,以推进烟草行业科研数据资源整合和开放共享,充分发挥科研数据基础资源作用和创新引擎作用,加快科研大数据在科技创新、科技决策等领域中的应用,提升科技创新效能。因此,统筹烟草科研数据资源规划、加强烟草科研数据资源管理是开展烟草科研大数据工作的关键。数据资源体系建设主要以信息管理学、图书馆学等领域的信息资源规划理论为基础[1],利用企业或组织业务数据为对象,科学统筹信息资源分布,从而推动信息资源充分共享和有效利用,为业务处理与管理决策提供支撑。为此,通过对国内外数据资源体系研究现状进行分析,结合烟草行业现有科研数据资源情况,基于信息资源规划理论构建了烟草科研大数据资源体系,以期为烟草科研大数据资源建设与应用提供基础支撑。
1 国内外数据资源体系研究现状
1.1 国外信息资源规划研究进展
近年来国外学者在跨国企业信息资源战略规划[2]、信息资源规划与企业业务目标关系[3]、信息资源战略规划概念及演进[4-5]、企业和政府中信息资源规划及作用[6]等方面已开展了许多研究,并积累了丰富经验。此外,2014 年高德纳咨询公司(Gartner)发布的《预测2015:大数据挑战从技术转向组织》研究报告认为,对大数据的关注应从技术研发转向组织应对,组织的注意力必须转向信息管理。如果无法证明其价值或不能对已有信息管理流程进行创新,60%的大数据项目将无法实施[7]。因此,在大数据时代,统筹规划与科学管理大数据资源至关重要。
1.2 国内信息资源规划研究进展
1986 年,高复先[8]率先在国内提出了信息资源规划概念,即在总体数据规划过程中实现数据管理标准化,并在集成化的信息系统构建中发挥作用。以此为基础,国内许多学者对信息资源规划开展了深入研究。高复先[8]根据政府部门实施信息资源规划的需求,最早提出了数据规划视角理论;朱晓峰[9]在数据规划视角理论的基础上,提出了业务流程集成视角理论;裴雷等[10]拓宽了对信息资源规划的研究范围,通过引入价值观、环境等要素,提出了多层次系统视角理论。近年来,在国家基础研究数据[11]、国土资源[12]、医疗健康[13]、水利[14]、水运[15]、水环境监测[16]和苹果产业[17]等领域也相继开展了数据资源体系的研究和应用。利用3 种视角理论科学规划信息资源,可有效应对信息孤岛问题,有助于优化政务流程、推动阳光政府建设、提高政府信息共享程度、提升公共服务能力[18];推动企业信息化[19],规范表达用户需求,规划稳定的数据模型[20],建立统一的数据标准,实现科学决策,提高工作效率。
1.3 烟草科研大数据资源现状
烟草农工商领域产生的与科研活动相关的数据均属于烟草科研数据资源。采用问卷调查、实地走访、专题座谈等形式,对烟草工商企业、科研单位以及行业外相关单位进行了烟草科研数据资源专题调研。结果显示,烟草科研数据资源覆盖烟草育种、烟叶种植到卷烟生产和销售的全部流程,数据涉及烟草农业、化学、工艺、香精香料、基因、质量检测等众多学科,并以相关数据为基础建立了大量专用数据库系统和应用平台,部分烟草企业还购买了第三方资源数据库[21]。
1.3.1 烟草科研数据资源特点
(1)种类丰富。烟草农业领域主要涉及种质资源、育种(品种)、栽培、病虫害防治、土水肥、烟叶采收、烘烤和调制、烟叶质量等数据;工业领域包括烟叶复烤、卷烟配方和产品设计、制丝生产、卷接包、香精香料及添加剂、烟草制品检测分析等数据;商业方面包含品牌培育、市场营销、卷烟真伪鉴别等数据。在烟草科研过程中还产生大量项目申报、成果评价、标准、专利、论文、论著等数据。
(2)联系密切。烟草行业经过30 多年的发展,整个产业链产生并积累了大量与科研相关的数据,这些数据具有一定连续性且存在相关性,其内在关系需要经过数据处理才能有效利用。
(3)类型多样。与烟草科研相关的数据资源,涉及生产过程、科学实验、科研观测和统计、科技文献等,既有传统数据库中存储的结构化数据,也有图片、视频等非结构化数据,随着物联网、互联网+等技术的发展,非结构化数据呈增长趋势。
1.3.2 烟草科研数据资源存在问题
(1)缺乏有效整合和汇交。烟草行业现有各类数据资源平台众多,数据产生时间和来源存在较大差别;数据完整性差,平台规模、数据类型差异性大;数据资源平台重复建设,缺乏衔接和汇交,不利于数据整合和共享。
(2)分布分散尚未形成体系。烟草科研数据涵盖农工商科各领域,由于缺乏整体建设规划,尚未形成规范的数据资源体系和知识网格,科研数据处于自成体系、分散孤立状态,无法有效利用数据资源。此外,由于部分数据涉及企业技术和商业利益,各单位对这些数据资源的使用和共享进行限制,无法实现数据信息的深入挖掘和全面分析,对数据分析的科学性、系统性和准确性影响较大。
(3)缺乏统一的标准体系和整合框架。由于数据采集、保存、整合、共享等缺乏规范标准和系统规划,无法实现数据标准化和统一化,以及形成有效数据管理和共享机制,从而影响数据资源的共享和利用。
(4)整合技术手段滞后。目前烟草科研数据资源大多局限于单个子集或单一资源类型建设,缺乏对多源异构数据的处理和融合,数据整合技术相对落后。
(5)综合利用不足。现有科研管理系统仅注重本单位科研业务流程处理,主要满足日常业务管理需要,由于缺乏数据分析和深度挖掘,不断积累的科研数据得不到充分利用。
2 烟草科研大数据资源体系构建方法
构建烟草科研大数据资源体系的关键在于形成统一的、具有共识性的资源主题分类,进而实现对数据资源系统的顶层设计,以解决长期以来存在的“信息孤岛”问题,实现科研数据资源的有效整合和系统集成,推动科研数据的及时汇交和共享。此外,烟草行业同属于农业和加工制造业,大量科研数据来源于烟叶种植、卷烟制造、市场管理和营销、科研等全过程的各个业务环节,通过对科研数据进行分类和梳理,以信息资源规划方法为基础,构建基于业务流程烟草科研大数据资源体系。
2.1 烟草科研大数据资源分类依据
烟草科研数据资源分类以数据产生的业务流程为主线,借鉴了目前常用的中国图书馆分类法(CLC)、国际专利分类法(IPC)、欧洲专利分类体系(ECLA),同时也参考了中国烟草科技信息中心制定的《烟草专业资料分类表》。
2.2 烟草科研大数据资源体系构建原则
针对烟草行业现有科研数据资源情况,构建烟草科研大数据资源体系应遵循以下原则:①科学合理性。应从科研视角对数据进行分类,使数据资源体系符合烟草科研规律,具备科学合理性。②结构完整性。尽可能囊括所有数据分类,使相同主题、专业与相关学科的各类数据重组,有机整合各类资源,保障体系结构的完整性。③良好应用性。应实现体系结构中各类别数据间的有机整合,发挥大数据的分析作用。④较好扩展性。随着数据种类和数量的增加,应不断调整数据分类并为新的分类预留空间,不要因扩展而影响已有的分类体系结构。⑤分类用词规范性。系统结构中各类用词尽量采用通用术语和规范用语,简洁表达类目的含义,突出类别的专指性,通过规范描述实现同级类目的排他性,保证烟草科研用语的规范性。
3 烟草科研大数据资源体系的构建
通过对烟草科研数据现状进行分析,结合烟草资源体系构建原则和数据分类方法,初步构建了烟草科研大数据资源体系框架,见图1。借鉴图书分类法[22]、专利分类法和专业资料分类法,参考科技文献和图书资源[23-31],结合烟草学科理论知识,将烟草农业、烟草工业、烟草商业列为烟草科研大数据资源体系的第一级分类;按照烟草及烟草制品完整的生命周期顺序,即从育种开始,经过育苗、移栽、生长至采收,调制后贮存、卷烟加工、成品营销、烟草物流等顺序,将第一级分类分别细分至第二级分类,并在各环节中补充基础研究类目;同样,将第二级分类细分至第三级和第四级。基于此,构建的烟草科研大数据资源体系主要覆盖以下10 类数据。
(1)烟叶生产基础数据。涉及烟草育种、烟叶生产生态、烟田分布、烟叶质量、烟草病虫害、烟草有害生物基础信息、植烟土壤病原物检测、烟叶生产基础设施、烟农合作社及烟农情况等数据。
(2)烟叶生产技术管理数据。涉及产区植烟品种类型、特征特性、产质量、栽培调制、推广应用;烟叶品质、品种布局、烟叶常规化学成分、烟草品种与特征化合物关联;各省烟叶年产量及等级质量、各工业公司片烟质量;烟叶复烤等数据。
(3)烟叶原料数据。涉及烟叶原料外观质量分析,包括烟叶生产、加工、仓储、品种、等级质量、物理化学指标、评吸等数据。
(4)烟草生物技术数据。涉及烟草分子生物学、烟草遗传、烟草生物化学、烟草细胞生物学等相关科研数据。
(5)烟草微生物数据。涉及烟草农业、烟草工业中与烟草相关的微生物遗传、生理和分类等数据。
(6)卷烟加工数据。涉及卷烟配方设计、加工工艺、检测与控制、卷烟半成品、成品质量及分析数据;生产设备运行、产品质量检验等数据。
(7)再造烟叶数据。涉及再造烟叶加工工艺、理化指标、致香成分、烟气分析等数据。
(8)卷烟材料数据。涉及香精香料基础成分和作用、卷烟辅材研发及应用、质量安全评价及工业可用性及包装设计等数据。
(9)市场营销数据。涉及品牌市场销售、客户、零售户、消费者、物流配送、营销创新、市场监管等数据。
图1 烟草科研大数据资源体系框架Fig.1 Framework of resource system for big data of tobacco scientific research
(10)科研基础数据。涵盖农工商所有科研基础数据,涉及国内外烟草专利、商标、法律法规;学术期刊论文、标准等;科研项目和科技成果;科研仪器设备、实验室过程实验;行业政策、法律法规、发展战略、经济运行等数据。
从中国烟草科教网文献数据库中随机选取45篇来自不同刊物、反映不同研究领域的烟草科技文献,根据资源体系进行分类,所选文献阐述的研究主题和领域均能较好地归入体系中相应的类目,从而验证了该体系的合理性。
4 结语
烟草科研大数据资源体系是烟草科研大数据建设的核心基础。通过对烟草行业现有科研数据资源进行梳理,并充分考虑科研数据保存、整合、管理和共享等应用需求,以信息资源规划方法和理论为依据,构建了基于业务流程的烟草科研大数据资源体系。数据资源体系采用了4 级分类,主体反映的是科研数据,同时涉及通过观测监测、考察调查、检验检测等方式取得并用于科学研究活动的原始数据及其衍生数据,实现了科研数据的完整性。随着烟草行业科技创新工作的深入开展,科研数据的种类和数量将持续增加,通过对资源体系进行适时修改和完善,可以避免数据扩展对体系结构的严谨性和科学性产生影响。该体系的建立有助于加速推动烟草行业科研大数据环境的形成,对加强科研数据标准化管理、保障科研数据完整准确、实现科研数据共享和循环利用等提供支撑。