APP下载

烟草科研数据现状调查与分析

2020-04-27邱纪青郑新章石昌盛汪志波王金棒刘亚丽冯伟华

烟草科技 2020年2期
关键词:数据量烟草行业科研人员

王 锐,邱纪青,郑新章,石昌盛,张 晨,汪志波,王金棒,刘亚丽,贾 楠,冯伟华*

1. 中国烟草总公司郑州烟草研究院,郑州高新技术产业开发区枫杨街2 号 450001

2. 国家烟草专卖局科技司,北京市西城区月坛南街55 号 100045

3. 上海烟草集团北京卷烟厂有限公司,北京市通州区万盛南街99 号 100024

科学数据,是人类社会科技活动所产生的基本数据、资料,以及按照不同需求而系统加工的数据产品和相关信息,具有明显的潜在价值和可开发价值,并在应用过程中得以增值,是信息时代最基本、最活跃、影响面最广的科技资源[1]。科学数据对科技创新主要起基础支撑作用,是科学研究不可或缺的信息资源,而科学数据的积累、开放、共享也是世界科技发展的重要资源和推动力。国际科技数据委员会CODATA 在2000 年制定了《网络时代的科学原则》,明确提出科学进步依靠全面和公开地获取数据[2]。我国在2015 年印发的《促进大数据发展行动纲要》中也肯定了科学数据开放共享的重要性[3]。大数据时代的到来,使得数据驱动科技创新的理念被更多人接受和实践,也使得科学数据共享成为势在必行的关键任务。近年来,针对科学数据共享现状[4]、科学数据开放共享策略[2,5-7]、影响科研数据共享因素[8-9]、科学数据管理平台建设[10-12]等方面已开展较多研究。农业[13]、气象[14]、医疗卫生[15]等行业也纷纷搭建系统平台推进部门间的资源整合,为科研提供数据服务,为决策提供科学依据。我国是全球最大的烟草生产国和消费国,烟草科研涉及农业、化学、工艺、香精香料、质量检测等众多领域,产生了烟叶质量、基因序列、近红外光谱等大量不同类型的科研数据[16-18]。丰富的数据源是数据价值挖掘的基础,通过整合不同来源、不同项目的科研数据,可以使科研数据形成规模,便于科研人员对数据进行深度挖掘,促进交叉学科研究。为此,以问卷填写和实地调研相结合的方式,对烟草行业相关单位和机构的科研人员进行调查,通过了解烟草行业科研数据现状,发现数据共享环节存在问题并给出针对性建议,以期为烟草行业科研数据共享提供参考。

1 烟草行业科研数据现状调查

1.1 调查方法

采用问卷填写和实地走访相结合的方式进行调查,调查对象涵盖烟草行业部分直属单位、中国烟草机械集团有限责任公司、中国烟草实业发展中心及其所属具有独立法人资格的单位、省级局(公司)所属科研院所和质检机构以及相关单位的科研人员。

调查内容包括科研数据现状以及科研人员对科研数据的需求及建议两大方面。针对科研数据现状,设置了数据种类、体量、年均增量、涉及领域、管理模式、存在问题、相关数据库与系统平台建设情况(是否建设有科研信息系统或数据库、系统名称、系统功能与不足)等问题;针对科研人员对数据的需求及建议,设置了数据种类、潜在价值、应用场景、对科研大数据平台功能需求等问题。

1.2 调查结果

本次调查共收到来自行业内有关单位反馈130 份。其中,问卷反馈124 份,包括卷烟工业企业15 份,商业企业84 份(含地市级公司),烟草机械企业5 份,科研机构1 份,科研人员个人反馈19份;实地走访6 家,包括卷烟工业企业3 家,商业企业1 家,科研机构2 家,通过与科研人员现场交流,对调查内容进行掌握。

调查结果(表1)显示,烟草行业工商企业和科研院所都拥有大量科研数据,范围覆盖烟叶种植到卷烟生产的全部流程,数据涉及烟草农业、化学、工艺、香精香料、基因、质量检测等众多学科,但企业之间信息化程度存在较大差异,卷烟工业企业建设科研信息系统的比例相对较高。其中,卷烟工业企业建设的系统平台主要有产品研发、科研项目管理、烟叶原料数据库、产品质量管理、工艺管理、生产与物流等系统;烟草商业企业建设的系统平台主要有科研项目管理、科研创新管理、烟叶质量管理、产品及工艺数据管理、气象监测、烟田及烤房参数远程监测、植保信息等系统。可见,烟草工商企业由于业务不同,拥有的科研数据类别存在较大差异,卷烟工业企业的科研数据集中在产品原料、卷烟评吸、生产和物流、烟用材料、产品配方、质量检测等方面,而烟草商业企业的科研数据主要集中在气象、土壤、烟叶质量、植保信息等方面。

表1 参与调查企业的信息系统数量分布Tab.1 Number of information systems of enterprises involved in the survey

烟草工商企业的数据量也不尽相同。省级烟草商业企业的数据量大多集中在1~20 GB 之间,个别企业的数据量在50 GB 以上。卷烟工业企业的数据量相对较大,企业之间数据量的差别也更加明显,多数企业的数据量在1~20 GB 之间,一些企业的数据量可达到TB 级别。由图1 可见,大多数企业的年增数据量小于10 GB,个别企业的年增数据量在100 GB 以上。此外,烟草企业的科研数据多以结构化数据为主,占所有数据的60.6%;非结构化数据和半结构化数据分别占28.9%和10.5%。

图1 省级商业企业和卷烟工业企业科研数据量分布Fig.1 Distribution of scientific research data volume of provincial tobacco commercial and industrial enterprises

分析可见,烟草行业在科研数据管理方面主要存在以下问题:①科研数据缺乏统一标准和规范,造成数据一致性差,格式不统一,企业间数据交换难度大;②数据资源相对孤立,数据资源共享的深度和广度不够,存在系统平台重复建设、课题重复研究等现象,造成人力、物力、财力浪费;③企业对科研管理全过程数据的采集和存储不够重视,导致某些中间环节数据缺失或积累不足,影响科研数据的综合利用;④各企业信息化建设水平不均衡,只有少数企业建设了数据中心,实现了企业内部科研数据资源的存储和共享,仍有一些企业的科研数据没有得到系统管理和利用,数据分散在各个项目或科研人员手中,以电子文档或纸质形式存在,数据安全性不高;⑤各企业现有系统平台技术落后,仅提供简单的查询检索功能,对科研数据的分析挖掘和利用程度较低,无法有效指导企业的生产经营活动。

1.3 影响科研数据共享因素分析

科研数据难以共享已成为科学研究的一大障碍,在大数据环境下其带来的负面效应会被继续放大[19]。针对烟草行业科研数据管理中存在的问题,将国内外科研数据共享研究成果与烟草行业实际情况相结合,对影响烟草行业科研数据共享因素进行梳理,主要表现在以下方面:①行业内各企业间存在竞争关系,企业间科研数据开放、共享难度大;②受传统思维的禁锢,科研人员普遍认为科研数据是个人财产或部门财产,因此科研数据仅分布在科研单位或研究小组内部,造成科研数据在部门或行业内共享不畅;③科研人员不愿付出额外的人力和时间从事数据整理和共享工作;④科研人员担心数据共享后自己的科研思路直接或经推理后被他人知晓,影响今后科研工作的开展;⑤缺少对科研数据的评价方式,科研人员无法通过共享数据提升自己在专业领域的学术影响力;⑥对于共享的科研数据,缺乏完善的知识产权保护政策,导致基于共享数据产生的科研成果权利归属不清;⑦科研人员对数据信息安全存在担忧,担心科研数据中的敏感信息在共享时被泄露。

2 促进烟草行业科研数据共享的建议

当前烟草企业之间普遍存在合作与竞争的关系。面对重大科研课题,单个烟草企业的研发实力有限,只有通过多方合作才能实现技术突破;由于卷烟产品的特殊性,烟草行业部分同类企业间存在产品结构相近、目标消费群体重合等现象,使得企业间难免存在竞争关系。烟草企业的这种“竞合关系”导致行业在科研数据共享方面存在一定特殊性,为解决当前烟草行业科研数据共享难等问题,通过对存在问题深入剖析,提出以下建议。

2.1 建立健全科研数据共享政策和运行机制

烟草行业实行垂直管理模式,因此政策的支持和引导是实现行业科研数据共享的强大推动力。针对行业科研机构和科研人员数据共享意愿不强等问题,建议制定和出台相应的科研数据共享管理政策,通过行政手段促进行业科研数据的开放共享。科研数据共享政策体系应涵盖科研数据的产生、收集、存储、评价、传播等各个阶段,对数据共享与访问、数据的知识产权和隐私保护、数据管理程序和角色安排、信息安全等方面[20]给予制度保障。此外,还应建立详尽的运行机制,明确政策实施过程中的奖惩措施,积极推动政策的执行,保证政策的实施效果。

2.2 培养科研人员的科研数据管理和共享意识

科研人员是科研活动的主体,也是科研数据共享政策的执行者和受益者,只有提高科研人员的科研数据共享意识,才能推动并形成“数据取之于科研人员,用之于科研人员”的良好氛围。因此,建议在行业内开展相关培训,向科研人员介绍当前各国政府及科研机构在科研数据共享领域的发展现状,普及科研数据共享对科研工作效率提升及科研创新的推动作用,从思想层面上提高科研机构和科研人员对数据共享重要性的认识,培养共享意识。

2.3 制定烟草行业科研数据标准和管理机制

针对行业内科研数据缺乏统一标准规范等问题,烟草行业应针对各个学科领域制定科研数据标准,包括格式标准、传输接口标准、安全标准等内容,并对数据的采集、处理、交换及应用服务等各个环节提供指导,便于科研数据的整合、管理、交流和共享。培养专门从事科研数据管理的人才,负责各企业科研数据的收集、整理和汇交。在共享数据时,要对数据的来源、生成时间、类型、体量、存储方式、格式等进行说明,并提供数据样例和使用文档,避免数据的错用、错误诠释等对科学研究以及数据提供方造成潜在危害。同时建议行业定期对科研数据管理人员进行培训,使其明确数据标准,掌握数据整理和共享方法,提高数据共享工作效率。

2.4 实现科研数据分级管理

鉴于不同科研数据的敏感程度有所差别,建议行业制定相应的划分标准,各企业根据标准梳理共享数据的范围。对于不涉及企业核心商业机密的数据,鼓励和引导其在行业范围内共享;对于敏感程度较高的数据,企业可自行决定数据的开放范围。此外,分别对科研人员和科研数据实施分级管理。将科研人员按照所属科研机构、工作职能等细目进行分类,授予不同人员不同的访问权限;将科研数据按照敏感程度进行分类,授予不同数据不同的开放权限。通过数据的差异化授权,保护数据提供方的利益,消除科研机构和科研人员对敏感数据泄露的担忧,激发科研人员共享数据的积极性。

2.5 建立项目关联数据的汇交机制

为保障科研数据共享政策的顺利执行,可以要求科研经费超过一定数额的项目或中国烟草总公司科技项目在报批时必须提交数据共享计划,说明项目预期会使用及产生的数据情况、共享数据的时间节点、共享数据方式等。在项目实施过程中,要求项目组定期汇报数据共享情况,达到科研数据“边采集、边整理、边汇交”的效果。在项目结题验收环节,将数据共享计划的完成情况作为考核指标之一,促进共享数据质量的提高。

2.6 建设高水平科研数据中心和科研数据共享平台

由于烟草行业内各单位间存在着竞争关系,科研数据在各单位间难以直接共享,故可以建设独立的科研数据中心从事烟草科研数据的收集、整理、存储和共享工作,实现数据的长期保存、维护和访问。科研数据中心搭建专业的科研数据共享平台实现烟草科研数据的分析、计算、可视化等功能,通过态势感知技术保障共享数据的安全性,通过权限管理实现敏感数据的授权访问,通过服务的接口化推动科研数据的充分有效利用,为数据共享工作提供平台和技术支持。

2.7 推动烟草行业科研数据出版

针对科研数据评价体系缺失等问题,可以创办烟草科研数据类期刊或在现有烟草类期刊中增设数据型论文栏目,为科研数据型论文提供出版媒介。此外,将科研人员发表数据型论文情况纳入职称评定环节,以此鼓励科研人员整理形成产权清晰、数据完整准确、共享价值高的科研数据并出版,加快科研数据的开放与应用。同时建议烟草类期刊要求作者在提交论文时,一并提交实验原始数据,推动建立“先汇交数据,再发表论文”的机制。

2.8 建立数据共享的利益平衡机制

科研数据共享的实质是一种利益交换,烟草行业各企业的科技水平、信息化水平存在差异,导致科研数据的价值和质量参差不齐,由此影响各企业参与科研数据共享的积极性。因此,需要建立一种利益平衡机制,鼓励企业共享数据,例如:基于各单位提供科研数据的体量、质量、下载量、引用量、及时性等指标,对各企业的数据共享进行综合评价,对得分较高的机构给予奖励。此外,对于具有较大商业价值的数据,可以由数据提供方和使用方协商,以有偿方式激励数据共享。

3 结论

随着互联网技术的迅猛发展,共享经济模式正在颠覆人们的生活方式。共享经济以信息技术为基础,通过整合各种社会资源以实现资源最大化利用并获得经济红利。科研数据作为一种重要的战略资源,其价值随着使用范围和使用频次的扩展而不断提升。科研数据共享通过将掌握在个人和机构手中的“暗”数据分享给更多科研人员使用,使其在不同研究领域发挥作用,有效提高科研数据的价值。以烟草行业相关单位和机构的科研人员为对象进行调查,结果发现烟草行业在科研数据管理、共享和数据价值挖掘方面存在信息化建设水平不均衡、数据缺乏统一标准、数据共享及价值挖掘不足等问题,建议从制定数据共享政策、数据标准、数据评价体系以及强化共享理念、建设共享平台等方面着手,推动行业科研数据整合,为数据价值的深度挖掘提供数据和技术基础。

猜你喜欢

数据量烟草行业科研人员
科技部等五部门联合发文开展减轻青年科研人员负担专项行动
科研人员揭示油桃果实表皮不长毛的奥秘
科研人员破译黑猪肉特征风味物质
基于大数据量的初至层析成像算法优化
浅谈烟草行业网络安全及其防范策略
高刷新率不容易显示器需求与接口标准带宽
宽带信号采集与大数据量传输系统设计与研究
企业科研人员激励问题及对策研究
关于强化烟草行业市场管理的优化策略
基于烟草行业IT资产风险管理的未知威胁安全研究