APP下载

基于多源异构的烟用香原料数据集构建

2024-01-25宗国浩叶远青冯伟华毛铖挺孙世豪张天兵

烟草科技 2024年1期
关键词:加香烟用条目

宗国浩,叶远青,冯伟华,王 锐,毛铖挺,孙世豪,崔 凯,叶 勋,张天兵*,马 骥*

1.中国烟草总公司郑州烟草研究院,郑州高新技术产业开发区枫杨街2 号 450001

2.江苏中烟工业有限责任公司技术中心,南京市兴隆大街29 号 210019

感官品质与香韵风格是引导卷烟产品设计的核心要素。为了改善卷烟感官品质、突出烟草风格特征,卷烟企业普遍采用向烟草制品添加香精香料的方式进行卷烟增香。随着科技发展与进步,烟用调香技术由传统的依赖人工经验逐渐向以数据作为支撑的数字化调香设计转变[1-2]。因此,国内外数据资源(以可公开获取的化学品数据库为主)对于调香工作发挥了重要作用。美国国立医学图书馆(National Library of Medicine,NLM)构建了一系列以生物医学、化学、药学为主要方向的数据库。其中,危险物质数据库(Hazardous Substances Data Bank,HSDB)、实验室化学品安全报告(Laboratory Chemical Safety Summary,LCSS)、化合物毒性数据库(ToxNet)对评估香原料的安全性具有参考价值[3-4]。美国食品香料与萃取物制造者协会(Flavor and Extract Manufacturers Association,FEMA)构建了Flavor Ingredient Library数据库与食品香料安全性数据集GRAS(Generally Recognized As Safe)[5]。美国国立卫生研究院(National Institutes of Health,NIH)构建的PubChem数据库提供了较为全面的有机小分子生物活性数据[6]。但可公开获取的数据资源以化学品的基本信息、理化性质、毒理毒性为主,对感官特性、作用阈值、香气成分等与调香密切相关的信息则收录较少,数据资源分散且难以获取天然香原料相关信息[7-8]。由于烟草制品涉及高温蒸馏环境下的香气释放过程,调香过程中需要兼顾香原料在燃烧后的香气表现[9-10]。而现有资源难以对调香及相关技术研究提供数据支持,因缺乏面向调香应用的综合性香原料数据集以及适用于烟草调香的数据集,导致调香人员获取、查找和利用数据困难。为此,通过对香原料数据资源进行调研,对数据特性进行了梳理,并从多个数据来源开展数据采集,构建了基于多源异构的烟用香原料数据集,建立了烟草行业单体香原料中心库平台,以期为烟草行业数字化调香技术发展提供支撑。

1 香原料数据资源调研

1.1 香原料数据特性

对常用香原料数据库进行调研,并将这些数据库的主要数据种类进行汇总对比,结果见表1。在数据特性方面,分子结构、理化性质、感官描述等信息在多个数据库均有收录。PubChem、Sigma-Aldrich等化学类数据库较为全面地收录了化学物质的理化性质、物质毒性等信息;FooDB、FlavorDB 等食品类数据库更加关注食品中的风味成分及含量;IFRA、Flavor Ingredient Library 等由行业协会构建的数据库偏向于香精香料的安全评估与安全使用。可见,对于调香具有参考价值的数据资源众多但较为分散,多数数据库侧重于某一领域的相关信息,而综合性数据库又以化学信息为主,缺乏以调香应用为主的综合性香原料数据库。

表1 国内外相关香原料数据库信息汇总Tab.1 Summary of domestic and international databases of flavor materials

1.2 数据集构建流程

为全面获取对烟用调香有价值的高质量数据,一方面从公开数据资源进行数据采集,另一方面通过实物样品获取检测数据。对采集到的数据进行条目标准化、结构融合、数据标签标注等数据处理,最终形成结构化的多源异构烟用香原料数据集。数据集构建流程见图1。

图1 烟用香原料数据集构建流程Fig.1 Creation process of tobacco flavor material database

2 烟用香原料数据集构建

2.1 数据采集

2.1.1 公开数据采集

电子图书与期刊文献中包含大量香精香料信息,其格式以PDF 文件为主。采用ABBYY 的FineReader 12 文字识别软件对PDF 文件进行OCR识别,从中提取与调香相关文本信息及表格数据。纸质图书则先通过扫描生成电子图像,再对图像进行去噪、提高对比度、角度校正等处理,最终通过OCR识别提取其中数据。部分网站提供了数据接口及下载链接,可采用直接获取与网页爬虫相结合的方式进行采集,并将原始数据转化为半结构化数据,以便后续数据处理。

2.1.2 样品检测数据采集

烟用香原料感官评价分为嗅香香韵评价和卷烟加香作用评价。为便于在烟草行业实现数据共享与利用,评价指标与评价方法分别参考《中式卷烟感官评价方法》[20]和孔波等[1]提出的数字化调香方法。嗅香香韵评价采用18个维度的评价指标(树脂香、干草香、清香、果香、辛香、木香、青滋香、花香、药草香、豆香、可可香、奶香、膏香、烘焙香、焦香、酒香、甜香、酸香),量化方式为0~10 分,记分单位为1 分。卷烟加香作用评价指标分为烟气品质、烟气口感、烟气香韵3类。其中,烟气香韵的量化方式为0~10分,计分单位为1分;烟气品质与烟气口感存在正向改善作用的记为正分,存在负向作用的记为负分,并分别划分为无、弱、中和强4档,量化方式为0~3分,计分单位为1分。评价小组由7位具有省级及以上感官评吸资格的评委组成,并在实验开展之前对评价小组进行培训,通过计算平均值确定香原料样品各个香韵的嗅香评价分值。

主要挥发性成分的检测范围包含合成香原料样品和天然香原料样品。采用无水乙醇直接稀释、分散进样的方法提取香原料中的有效成分和单体物质,通过GC/MS对香原料的挥发性成分进行定性分析,筛选峰面积大、信噪比高的成分作为香原料的主要挥发性成分。天然香原料的主要非挥发性成分检测内容包括:水分,溶剂含量(乙醇、丙二醇、丙三醇),水溶性酸(乳酸、乙酸根、苹果酸根、富马酸、柠檬酸根),还原糖/总糖(还原糖、总糖),水溶性糖(阿拉伯糖醇、果糖、山梨糖醇、葡萄糖、肌糖醇、蔗糖、麦芽糖、麦芽三糖)。采用卡尔菲休法[21]检测水分,采用GC/FID方法[22]检测有机溶剂,采用离子色谱法[23]检测有机酸,采用连续流动和液相色谱相结合的方法[24]检测糖。

2.2 数据处理

2.2.1 数据条目标准化

由于不同数据来源对香原料的命名没有统一标准,导致原始数据中香原料名称产生混淆。此外,香原料的细分种类众多,合成香原料存在顺反异构、旋光异构等立体异构体,天然香原料在提取工艺、溶剂种类、原料品种、原料产地等方面存在差异,均可能导致香原料的感官特性完全不同。因此,需要确定每条数据所描述的香原料,并对不同来源中同一种香原料数据进行整合。为保证数据整合的准确性,建立了香原料条目标准(表2),依据标准逐条确认原始数据所归属的香原料条目。首先,根据CAS(Chemical Abstracts Service)号、FEMA号、名称等身份信息制定匹配规则,按规则对不同来源的香原料数据进行模糊匹配和聚类,同一类簇视为一个待筛选的二级条目。其次,通过人工筛选过滤出因数据残缺而指代不明的数据,挑选出使用频率高且描述准确的名称作为二级条目名称,并将满足标准的数据列入二级条目。最后,根据香原料条目标准,将具有近似关系的二级条目划分在一级条目下,并确定一级条目名称。

表2 香原料条目标准Tab.2 Entry standards for flavor materials

2.2.2 数据结构融合

不同来源的香原料数据包含文本、表格、数值、数组等多种数据结构,同一种数据属性也可能存在多种数据结构。在香原料数据中,结构化数据结构固定、关系明确,包括化合物基本信息、嗅香评价数据、成分分析数据等;非结构化数据包括XML 格式数据、化合物Mol 文件、色谱数据等。其中,通过图书和期刊采集的数据多为XML格式,需要对半结构化、表格、长文本等数据进行结构化处理。因此,本研究中采取以下方法进行异构数据融合:①对于原始数据中数字形式的数据进行数值化处理,并对计量单位进行统一,如作用阈值、理化指标等属性的测量值以数值存储,计量单位以文本存储;②对于长文本形式的香原料描述,在Python 3.7编程环境下采用NLTK第三方库对文本进行分段和分句,从分割后的文本中提取感官描述、制备方法、用途用量等信息,并录入相应数据表中;③对于数据内容相同而来源不同的表格数据,采用外连接的方式进行表格合并汇总,以提高数据的兼容性,如不同数据来源的香原料用途用量表等。

2.2.3 数据标签标注

数据标签是指通过数据加工得到的用于注解和分类的标注数据。通过数据标签能够实现数据快速分类,补充数据的支撑信息,便于对数据进行标签检索并实现检索结果二次筛选,提高数据辨识度。从数据来源、数据条件、数据内容3方面构建标签,并以key-value方式进行存储,主要包括:①对数据来源进行标注,形成数据来源标签;②对数据产生条件进行标注,如理化性质数据的实验环境、实验条件等,形成数据条件标签;③通过数学计算、规则判定等方式对数据进行标注,形成数据内容标签。以香原料样品的嗅香香韵标签(表3)为例,将嗅香指标单项分值处于该指标所有分值75%分位的香原料标记为“××香韵明显”。

表3 嗅香香韵评价标签Tab.3 Evaluation labels of olfactory aroma notes

2.3 烟用香原料数据集设计

依据常用的烟用香原料制定香原料清单,采集相关数据并对信息完备、描述准确的香原料数据进行筛选,根据来源保存至数据来源表。采用Python 3.7编程语言进行数据处理,通过条目标准化构建数据条目,并建立条目与数据来源之间的映射关系。将相同属性的数据保存至同一数据模块表中,对存在结构差异的数据进行结构转换与数据融合。基于数据来源、数据条件、数据内容等信息对香原料数据进行标签标注,最后对数据进行整合,建立数据表间的关联映射,形成烟用香原料数据集。数据表映射关系见图2。

图2 烟用香原料数据集的数据表映射关系Fig.2 Data relationships in tobacco flavor material dataset

如图3所示,数据集共收录了香原料基本性质、感官特性和辅助参考3 类数据,划分为10 个数据模块。其中,香原料的基本信息及理化性质汇总自化学类数据库;香原料的感官描述、卷烟加香作用评价、嗅香评价、天然来源、挥发性成分、非挥发性成分等香原料感官特性数据汇总自样品检测数据、图书文献、香精香料类数据库;安全信息及其他辅助参考数据汇总自化学类数据库和图书文献。

图3 烟用香原料数据集指标体系结构Fig.3 Index system of tobacco flavor material dataset

2.4 数据检索公众端设计

以烟用香原料数据集为基础构建数据检索公众端,即烟草行业香原料中心库平台,平台首页及系统架构见图4 和图5。在数据层中,通过Kettle 开源工具实现数据集的ETL 处理,将数据集中的结构化数据存储至MySQL 数据库,半结构化数据存储至MongoDB数据库。同时建立香原料数据索引体系,将数据库中的表字段与索引体系中的索引域进行映射,按照映射规则进行索引与数据库之间的同步联动。在组件层中,分别构建检索组件、布尔过滤器、统计组件、排序组件,在应用层面提供多种检索功能。

图5 烟草行业香原料中心库平台系统架构Fig.5 Architecture of “Tobacco Flavor Material Central Database” platform

3 数据集应用与分析

3.1 基于烟用香原料数据集的检索应用

烟用香原料数据集共收录香原料1 105 种,含5种以上数据来源的香原料条目占72%。数据检索公众端基于不同应用场景提供了简单检索、香气检索、感官作用检索、成分检索、笔记检索、高级检索6大检索功能,见图6。其中,简单检索提供基于香原料名称、CAS 号、FEMA 号等信息检索功能,可在明确检索目标情况下对某一种香原料进行检索。香气检索提供两种检索途径,一是通过感官描述词对具备特定香气的香原料进行模糊检索,二是基于数字化的嗅香香韵指标对香气组合进行精准检索。感官作用检索提供针对卷烟加香的香原料检索功能,可通过数值与标签两种方式基于加香后烟气品质、口感、香韵的作用效果进行香原料查询。成分检索提供针对特定香气成分或成分组合的检索功能,可在香精辨别、香精仿配等应用场景下查询含有相应成分的香原料。此外,平台还提供笔记检索与高级检索功能。笔记检索可根据香原料的批注信息进行检索,高级检索可对上述检索模块进行复合式检索,实现多维度、深层次的香原料检索功能,并提供香原料的详情信息与数据可视化展示,检索案例见表4。

图6 烟草行业香原料中心库平台数据检索模块Fig.6 Data retrieval module in “Tobacco Flavor Material Central Database” platform

表4 数据检索案例Tab.4 Cases of data retrieval

3.2 基于烟用香原料数据集的应用分析

3.2.1 烟用香原料主体香型分布情况

主体香型是对香原料主要香气特征的描述,如留兰香油的主体香型为药草香、薄荷香,异戊酸异戊酯的主体香型为果香。通过对数据集中1 105 种香原料进行分析,发现烟用香原料涵盖的香型分布广泛,以果香、药草香、辛香、花香为主体香型的香原料居多。按照香气描述中的主体香型对香原料分布进行统计(仅统计排名前10的主体香型),结果见图7。可见,合成香原料中果香占29.24%,花香占22.88%,两者占比远高于其他香型;天然香原料中排名靠前的香型为药草香、花香和辛香。这是由于天然香原料大多来自于植物,而从植物的根、茎、叶提取的香原料大多带有药草香和辛香。此外,辛香、果香能够与烟草本香相结合,这些香型的香原料在加香中也使用较多。

图7 烟用香原料主体香型占比分布Fig.7 Proportional distributions of main aroma types of tobacco flavor materials

3.2.2 烟用香原料嗅香香韵评价得分情况

对嗅香香韵评价数据进行分析,结果表明:烟用香原料中甜香、果香的香气强度较强,豆香、奶香、干草香等香韵的香气强度较弱。在嗅香评价方法中,每个香韵的分值区间为0~9 分,但各香韵在香气强度及嗅觉冲击力上存在差异。将各香韵的数据分布绘制成盒须图,见图8。可见,甜香得分较高且相对集中,得分中位数达到2.4 分,远高于其他香韵。果香与清香的中位数得分分别达到1.0 与0.2 分,其他香韵的中位数得分均为0或接近于0。表明甜香得1分代表该香原料的甜香弱于大部分香原料,而膏香得1 分则代表该香原料的膏香高于大部分香原料。从图8中的离群值还可以看出,部分香韵存在较强的香气强度,如酸香的最大值为8.5 分,辛香的最大值为7.5 分,而清香、膏香、奶香、干草香的最大值均不超过5分,这可能是不同香韵的嗅觉冲击力存在差异所致。利用2.2.3节所述方法对单项指标高于上四分位数的香原料进行标签标注,如乙基麦芽酚被标记为“焦香明显”“奶香明显”“甜香明显”“烘焙香明显”4个标签,以提高香原料的辨识度。

图8 嗅香香韵评价数据分布Fig.8 Distribution of evaluation data of olfactory aroma notes

3.2.3 不同香韵的烟用香原料加香作用分析

通过对香原料香韵与卷烟加香作用之间的关联性进行分析,以验证数据的可用性。结合香原料的卷烟加香作用指标与嗅香香韵评价指标进行线性相关分析,计算两两指标之间的皮尔逊相关系数r,0.2≤|r|<0.4 时表示存在弱相关,0≤|r|<0.2 时表示存在极弱相关或无相关。由图9可见,指标间的整体相关性较弱,但部分指标间存在一定相关性。在烟气口感方面,清香、甜香、花香、果香对口感特性整体上呈微弱正相关,青滋香、药草香、奶香、豆香、可可香、烘焙香、焦香对各项口感指标几乎无正向作用,清香与甜香对口感柔和具有改善效果。在烟气品质特性方面,干草香、烘焙香、焦香与烟气浓度具有相关性,主要由于香韵与烟草燃烧后的特征香韵相吻合,故卷烟加香后呈现烟气浓度提升的感官效果。花香、果香、青滋香对烟气浓度存在负向作用,而甜香、清香、干草香对提升香气质与香气量有积极作用。综上可见,基于数据集所体现的卷烟加香规律与实际经验整体相符合。

图9 嗅香香韵评价与卷烟加香作用之间的线性关联分析Fig.9 Linear correlation analysis between olfactory aroma note evaluation and cigarette flavoring effects

4 结论

建立了基于多源异构的烟用香原料数据集,涵盖1 105种香原料,包含基本信息、理化性质、感官描述、嗅香评价、卷烟加香作用、天然来源、挥发性成分、非挥发性成分、安全信息及其他共10 个数据模块,能够从多维度提供烟用调香数据。通过对主体香型分布、嗅香香韵分布、香韵与卷烟加香作用之间的关联性进行分析,结果显示该数据集能够体现烟用香原料的特征,应用分析得到的卷烟加香规律与实际经验整体相符合。基于数据集建立了烟草行业香原料中心库平台,可提供香气、感官作用、成分等多种检索功能,2022年平台检索量达到15 000余次/年,有效解决了香原料数据查找难、获取难、使用难等问题,对于推动烟草数字化调香技术发展发挥了积极作用。

猜你喜欢

加香烟用条目
丝束加香滤棒主要香味成分衰减特性的研究
一种基于常压消解仪同时测定烟用有机肥中总氮、总磷、总钾含量的样品前处理方法
垂直料管式加香设备的研制和应用
提高混丝加香瞬时精度
《词诠》互见条目述略
小议烟用物资的精益化管理
Can we treat neurodegenerative diseases by preventing an age-related decline in microRNA expression?
烟支重量和密度对加香加料表达效果的影响研究
静态顶空-气相色谱质谱选择性测定烟用白乳胶中7种苯系物
GC/MS法分析烟用接装纸中挥发性有机化合物