大数据技术在中药材资源优化配置中的应用
2022-07-23郭春丽吴国华顾若涛林嘉颖陈鹏程
郭春丽,吴国华,顾若涛,林嘉颖,陈鹏程
(1.广东财贸职业学院 信息技术学院,广东 广州 510445;2.广东财贸职业学院 现代教育技术与实训中心,广东 广州 510445;3.广东财贸职业学院 总务处,广东 广州 510445)
中医药作为我国独特的医疗资源、潜力巨大的经济资源、具有原创优势的科技资源、优秀的文化资源和重要的生态资源,对社会经济的发展有重要的作用[1]。在抗击新型冠状病毒肺炎疫情中,中医药再一次向世人证实了其显著的疗效。而中药材作为中医药事业传承和发展的重要物质基础[2],它的规范存储、养护、运输是促进中药材产业健康发展的重要保障。
2015年1月,商务部印发了《关于加快推进中药材现代物流体系建设指导意见》,指出到2020年基本建成中药材主要产销区为流通节点的物流基础设施和流通网络,配套建设规模化仓库设施,实现中药材物流的跨区域、规模化、集约化经营[3]。截至2019年底,11家中药材物流实验基地完成现场认证,67个基地正在建设中,规划中的药材仓储量272万吨[4]。物流示范基地主要是实现产区药材的收储[5],很少考虑到从产区到销区的成本。而中药材的下游企业中药厂,作为中药材的主要销区,它们所处的位置影响着中药材资源配置的高效。因此,如何结合中药材的主要产销区,优化资源的配置是具有现实意义的难题。
本文通过梳理“药厂-中成药-中药材”三者的关系,运用大数据技术从大量中药配方入手,挖掘出现次数最多的单个或组合中药材,再通过以核心药材为原材料的药品,统计出药厂,从而计算出使用频率高的中药材在全国的主销区,最后结合主要产销区,为优化资源的配置提供一种精准的方法。
1 大数据技术介绍
大数据技术是指对海量、异构、复杂的数据通过采集、存储、清洗、分析与挖掘、展现等方式进行加工和支撑,从而发现有用的或有意思的规律和 结论,实现数据的增值。
一般处理流程有五个环节,主要介绍如下:①数据采集:常见的采集方式有网络爬虫、传感器、日志记录等;②数据存储:一般有关系型数据库、Excel、分布式数据库,可根据数据量的大小进行选择,方便数据的读写;③数据清洗:对缺失、错误、重复、异常等 “脏”数据进行处理,提高数据集的质量;④数据分析:常用的分析方法有聚类、分类、关联规则等,运用算法对数据进行挖掘和分析;⑤数据展现:对分析的结果用图表的形式进行展现,更清楚地呈现分析的结论。
2 中药材资源优化配置的框架
目前,中药材流通节点通过收集当地区域内分散农户手中的中药材,进行集中储存规范入库、按需配送以及配套安全监控,实现中药材资源的配置。
2.1 逻辑框架
本文以中药厂作为中药材的主要销区,整体配置业务如图1所示。
图1 中药材资源配置业务逻辑
可以看出,流通节点作为基础仓储场所,既可以存储,也可以根据卖方需求进行发货。这样极大程度保证资源的合理配置和中药材的质量安全。中药厂在国家药监局公开备案,具备GMP生产资质后,从中药材种植者或中间商采购中药材,进一步加工生产中成药,再以渠道或代理的方式进行销售。现在信息发达,网上都可以检索每家中药厂生产的中成药种类,每种中成药的成分信息,即以哪些中药材作为原材料。
2.2 技术框架
根据配置业务逻辑,采用大数据技术进行优化,技术框架如图2所示。
图2 技术框架
2.2.1 数据采集 数据采集是基础,中药材、中成药、中药厂信息在网上都能检索,通过技术手段可以收集起来。
2.2.2 数据存储 主要看数据量的大小,这里由于数据量最多上百万条,选择关系型数据Mysql存储。
2.2.3 数据清洗 处理“脏”数据,包括重复值、缺失值、错误值、异常值,比如数据中混杂的有西药,属于异常值,需要对其进行删除操作。
2.2.4 数据分析 通过分析中成药的成分信息,统计出现频数多的中药材,再计算使用核心药材的中成药,然后检索生产这些中成药的药厂,从而根据药厂所在的区域得出主销区。最后结合主要产销区,给出资源配置优化的方案。
2.2.5 数据呈现 对分析的结果进行呈现,再分析其结果的正确性。
3 实验分析
3.1 实验过程
3.1.1 数据采集 采集中药材、中成药、药厂的信息,分别见表1、表2、表3。其中药厂包括生产中药和西药的药厂,药厂生产的药品见表4。
表1 中药材主要信息
表2 药厂主要信息
表3 药品主要信息
表4 药厂生产的药品
最终,共收集了1 759条中药材标准信息、10 679条药品信息(含少量西药)以及8 289家药厂信息,存储到Mysql数据库中。
3.1.2 数据清洗 由于中药材名称是有限且统一的,药品的成分是0个或多个中药材的配伍,这是一个典型的多模式串识别问题,本文采用Aho-Corasick算法进行数据清洗,具体步骤如图3所示。
图3 清洗步骤
需要注意的是,中药材名称有一些是包含关系,比如茯苓、土茯苓,但它们属于不同的中药材,清洗时要避免将土茯苓识别成为土茯苓和茯苓两味药材以造成数据的二次“污染”。
对重复、缺失的数据,以及不含中药材的药品数据进行删除处理后,共有7 038条中成药数据,成分信息里中药材之间用逗号进行分隔。表5列出部分清洗前后的数据。
表5 清洗前后的数据(部分)
3.1.3 数据挖掘 选用关联规则的模式增长算法即FP-growth算法来计算核心药材,并发现核心药材之间的隐含关系与规律。
首先,计算药品中每味中药材出现的频次,即频繁项集为1的药材,结果见表6。这里支持度取0.07,大于支持度的单项集时核心药材。
表6 单项集(部分)
可以看出甘草、当归、茯苓、川芎、黄芪、黄芩等是使用频数高的中药材。甘草作为“中药之王”,具有补气功效等作用[6],当归具有补血活血等作用[7],茯苓具有利水渗湿、健脾宁心的作用[8],黄芪素有“东北小人参”之称,是补中益气要药[9]。核心药材与在感冒类、脾胃类清热类、肺炎类、增强免疫等细分领域的研究结果是一致的[10-13]。
其次,查询使用核心药材的中成药,也就是检索出成分含有核心药材的中成药,药名是唯一的。
然后,统计生产这些中成药的药厂,再根据药厂位置归属到所在省份/自治区/直辖市。由于本文采集的中药厂分布在全国31个省/自治区/直辖市,每个区域对中药材种类使用数量的情况如图4。
注:颜色越深代表使用的中药材类型数量越多,图中可明显看出内蒙古、吉林、河北、黑龙江、江西四个省/自治区的药厂是中药材的主要销区。图4 使用的核心药材类型数量、分布地图
最后,挖掘核心药材之间的关联关系。中成药一般都是多味中药材配伍,挖掘出关联关系强的潜在中药材组合。频繁项集为2,最小支持度和置信度分别为0.05、31%,结果见表7,频繁项集为3时,最小支持度和置信度分别为0.025、45%,结果见表8。
表7 最大频繁项集为2时的关联关系
表8 最大频繁项集为3时的关联关系
3.2 结果分析
从表7结果可知,核心药材间的关联关系能够同时满足最小支持度和置信度的要求,表明核心药材间存在强关联规则。药品成分中有川芎、白芍、当归三味中药材,则以上药材同时出现的频率为2.83%;另外,挖掘结果显示含有川芎、白芍的所有中成药中有90.05%的概率会出现当归,出现桔梗的药品中有62.8%的概率出现甘草,陈皮的药品中有45.92%的概率出现甘草,白芍的药品中有41.89%的概率出现甘草。这种强关联关系既表明药材间存在配伍的规律,也为流通节点对中药材的资源配置提供了一种优化方法,即在配置桔梗、陈皮、白芍、茯苓的区域,可同时配置甘草,同理,在配置川芎、白术、黄芪的区域,可考虑同时配置当归。
另外,从图4可以看出,使用的核心药材类型数量多的地区集中在华北、华东、华中、西南和西北地区,而青藏、新疆、江苏、海南等地区相对少一些。这与中药材的道地产区气候、土壤等自然环境有很大关系。康传志等[14]研究得出不同区域分布的道地药材,如表9。
表9 不同区域分布的常见中药材
将上表中药材的道地产区与本文分析的核心药材主要销区结合起来,江西属于白芍、白术、茯苓、丹参等核心药材的中心产区,也是药材使用类型最多的一个区域,所以在选择大规模仓储、物流中心节点时,可考虑在江西地区作为中药材的综合地区。而内蒙古中部地区是生产甘草的道地产区,也是甘草的主要使用地区,则此区域的流程节点以甘草为主,同样,河北地区可以以黄芪、黄芩为主。
主产地与主销区的结合,既可以发挥道地产区的优势,保证中药材的质量,也可以科学地将道地产区药材仓储到离销售区域最近的位置,缩短销售的时间、物流、经济等成本,为中药材资源的优化配置提供高效的途径。
4 结语
本文运用大数据技术,采集中成药、中药材、药厂等信息,利用Aho-Corasick算法对中成药的成分信息进行清洗,再用FP-growth算法挖掘核心药材之间的关联关系,统计出核心药材的主销区。结合核心药材的道地产区和主销区,为中药材的资源配置提供了一种优化的方法。
在研究过程中,核心药材的类型数量是主要考虑因素,下一步工作可以加入药厂对中药材的使用量这一因素。因为药厂有自己的主打药品,成分中的前几个中药材一般是药品的主要原材料,这样预估使用量可以为优化方案提供更全面的依据。