基于数据挖掘的消化系统疾病藏医用药规律研究

2023-05-29 09:24刘鸿谭颖肖宗朋
电子技术与软件工程 2023年7期
关键词:方剂医药数据挖掘

刘鸿 谭颖 肖宗朋

(1.黔南民族职业技术学院 贵州省都匀市 58000)(2.西南民族大学计算机科学与工程学院 四川省成都市 610000)

藏医药学作为世界四大传统医学之一,不仅以青藏高原自身医学理论与实践为基础,还吸收了中医学、印度医学等医学精华,是具有完整理论基础的少数民族传统医学体系。但极具民族特色的医学理论与晦涩难懂的藏医文献,阻挡了藏医药学的推广。为方便研究人员能根据个人需要对传统藏医药方剂进行查询与使用,本研究利用现代信息技术,收集、整理经典的藏医药方剂与药材信息,将其存储在关系型数据库中,实现藏医药方剂、药材信息的数字化存储,实现信息资源共享。

消化系统是人体最大的免疫和内分泌器官, 为所有饮食必经的要道, 因此易受到病原的侵犯。在当今社会,很多人受工作影响,无法按时吃饭休息,使消化系统承受了巨大的压力,发生在胃肠道的疾病也在不断增加。而藏医药学注重人的整体调和,内外平衡以求达到疗效,对于消化系统方面的常见病、慢性病及疑难杂病的诊疗具有自己的特色和优势。由于藏医复方成分往往多达数十位药材,因此本研究将依靠数据挖掘技术寻找其中的核心处方,以期发现传统藏医药方剂的用药配伍规律。

1 材料和方法

1.1 数据来源

本研究主要收集并整理藏医药相关数据资料,包括《晶珠本草》、《蓝琉璃》、《妙音本草》等藏药经典著作,参考《中国藏药材大全》[1]、《藏药方剂宝库》[2]对其内容进行整理归类,并对收集到的数据进行规范化,方剂及药材数据中的药物名称均参考《中华本草•藏药卷》和《四川省藏药材标准》2014 版进行统一。

1.2 数据初步录入

通过前期的文献收集与整理工作,我们发现藏药制剂的主治十分广泛, 一个制剂往往可以治疗多个系统疾病。在疾病描述方面,多参照现代医学知识体系。疾病信息主要按照生理系统性疾病进行分类,例如消化系统疾病、呼吸系统疾病、循环系统疾病等[3]。为方便保存整理成果及为后续研究提供参考,本研究搭建了“藏医药传统方剂药材数据库”,并使用SQL Sever 软件进行数据的存储与后台管理工作。

1.3 数据分析

1.3.1 数据预处理与频数统计

为保证后续数据挖掘工作能顺利开展,需对数据进行预处理。首先将方剂数据根据其主治的病名和症状属性按照生理系统性疾病进行分类。此外,数据库为保证文献记载的全面和准确性,保留了其中的描述性文字,因此在数据预处理时需对文本内容进行抽取。在处理过程中,部分方剂中出现的辅助药物或食材,如茶、白糖、生米等不再计入统计;将方剂组成中出现的“各适量”、“各等量”、“g”、“握”等词都删除,使非结构化数据转化为结构化数据。

根据藏医治疗消化系统疾病的441 个记载在册的方剂,使用SPSS 软件统计出方剂中药物的使用频率。取出排名前30 的药物作为高频药物,根据藏医药学的药材性味理论,整理药材的“六味”、“三化味”及“十七效”等信息。

1.3.2 关联规则

关联规则主要反映事物之间的关联性,目前常用于传统医药领域,主要是从大量且复杂的传统医药信息中发掘不同数据集之间潜在的联系,常见于方剂配伍规律的研究等。关联规则的兴趣度由其支持度(support)和置信度(confidence)来度量,它们分别反映规则的有用性和确定性。在用药规律挖掘中,支持度是指所有药物组合中同时出现两味或者多味药材组合的概率;置信度则是在某一药材出现的条件下,另一药物出现的概率。同时满足最小支持度阈值和最小置信度阈值的规则称为强关联规则。

Apriori 算法是挖掘布尔关联规则频繁项集的经典算法,其最大的优势是算法流程简单直观,原理易于理解。Apriori 算法挖掘过程主要包含两个阶段:第一阶段采用逐层搜索的迭代方法,从数据集中找出所有的频繁项集,即项集出现的次数至少与预定义的最小支持计数一样;第二阶段再从这些频繁项集中产生强关联规则,这些规则必须同时满足最小支持度和最小置信度[4]。

本研究首先通过频数统计得到治疗消化系统疾病的方剂中使用频率较高的药物及其药味药性特点,并计算出频率。借助SPSS Modeler18.0 软件,使用Apriori 算法对高频药物进行关联规则挖掘,发现核心药对和配药组合,并绘制关联网络图。

1.3.3 因子分析

因子分析是通过研究很多变量间的相关系数矩阵,将变量间复杂的关系划分为少数的几个综合因子,并可以据此对所有变量进行分类的一种统计分析方法。通过这种方法,可以从许多变量中找出隐藏的具有代表性的因子,即把相关性高的变量归入一个因子,不仅可以将变量数目减少,还能检验对变量间关系的假设。在本研究中通过因子分析法对高频药物进行归类,从而发掘不同藏药类群的主要特性[5]。

袁安十六岁,李离、吴耕十五,上官星雨最小,十四岁。他们在华阴县下的一个破庙里结拜成兄妹,袁安年长,堪堪成了大哥。

首先取出排名靠前的前30 味药物,将每一味药物作为变量,每个方剂作为个体进行统计,其中方剂中含有该药物记为1,没有则记为0,为因子分析做准备,使用SPSS Statistics22.0 软件对整理完毕的高频药物数据矩阵进行因子分析[6]。

2 结果

2.1 藏医药传统方剂药材数据库

藏医药传统方剂药材数据库共收录了4499 首单验方,以及752 种药材信息,15 类系统疾病类别以及233种疾病与症状名。实现了传统文献向现代数字化的转变,保障了传统文献的存储和传承,也为后续的数据挖掘研究提供了有效的数据来源。

2.2 针对消化系统疾病的藏医用药规律的数据挖掘

2.2.1 频数统计分析

藏医药传统方剂药材数据库中存有治疗消化系统疾病方剂有441 首,总计使用药物310 种,用药频次3207味,通过SPSS 软件得到用药频次排名前30 味藏药。根据统计结果显示,藏医治疗消化系统疾病的前30 味药物中,使用频次为1826 次,占总体使用的50%以上,十分具有代表性。因此,统计整理了使用频率前30 味药物的性味信息,药材六味中辛味的出现频数最多,藏医学中的三化味是指患者服用药物后,在体内经吸收后其原来的药味发生变化,最终转化为甘、酸、苦三味,经统计,苦味频率最高,其次为甘味。藏药的十七效作为藏医遣药组方的理论基础,对临床用药有着极大的影响,对此统计结果显示温性药物最多,出现频率高达28.4%,其次为轻、锐性药物,如表1、表2、表3 所示。

表1:使用频率前30 味药物的六味统计

表2:使用频率前30 味药物的三化味统计

表3:使用频率前30 味药物的十七效统计

2.2.2 关联规则

针对频数统计的结果,将高频药物数据导入至SPSS Modeler18.0 软件中,选择Apriori 算法模型,构建数据流,设最低条件支持度为10,最小规则置信度为75%,为了发现核心药对,将最大前项数设为1,发掘两种中药之间的关联规则,得到4 条药对关联规则,如表4 所示。为发现药味数更多的药物搭配关联规则,同样选择Apriori 算法模型进行分析,设最低条件支持度仍为10,最小规则置信度改为80%,最大前项数设为5,得到4 条三种药物间的关联规则,如表5 所示。

表4:消化系统疾病高频药对关联规则表

表5:消化系统疾病高频药物组合关联规则表

2.2.3 因子分析

进行因子分析前,应通过KMO 检验与Bartlett 球形检验判断数据是否适合进行因子分析,高频药物的数据经检验后显示,KMO 值为0.624>0.5,Bartlett 球形检验的卡方值为2922.182,自由度为435,显著性Sig=.000<0.05,测试值均符合,适合做因子分析。

运用主成分分析法提取公因子,发现前11 个主成分对总方差的累积贡献率达到了64.363%,包含大部分信息,因此提取前11 个主成分,并选择最大正交旋转法,将11 个公因子旋转后,得到其载荷矩阵,其中将载荷系数绝对值大于0.5 的变量全部取出[7-9],其结果如表6所示。

表6:消化系统疾病高频用药载荷系数表

3 分析与总结

本次研究通过收集整理传统的藏医药药材和方剂信息,将数据按统一标准进行规范化处理,并使用SQL Sever 对其进行数字化存储和管理,建立了藏医药传统方剂药材数据库。不仅有利于传统文献的保存,也便于研究人员深度挖掘藏医药的用药原理和配伍规律。

为了推动藏医药在消化系统疾病方面的研究,本研究借助数据挖掘的算法发现其传统文献记载的药方中隐含的配伍规律。首先对方剂中的药材及其药味等进行频数统计,我们发现治疗消化系统疾病的方剂中前三十味高频药材中辛味药材最多,其次为苦味和甘味,辛味药物具有增生胃温,健胃消积,驱杀肠胃中的寄生虫等功效,可用于胃寒、消化不良、不思饮食等病症。甘味药材有滋补强身的功能,对食道阻塞等病较为有效,苦味药物主要有开胃、驱虫、止渴、清热解毒等功效。对频数较高的常用藏药功能进行分类,荜茇、光明盐、干姜、白豆蔻、胡椒、肉桂等药多有温中散寒、恢复脾阳温煦功能,主治寒性培根病、隆病等症;石榴、诃子、小米辣、阿魏等药多用于提升胃阳、助消化;红花、岩精、甘青青兰、小叶杜鹃、甘青乌头等药多用于清热泻下;紫硇砂、碱花、铁线莲等药多用于理气通便、消胀。

从关联分析的结果可以看出,从药对到角药搭配中,石榴的出现频率最高,根据藏医的三因学说和君臣佐使的配药思想,治疗消化系统疾病的方剂中,石榴多为君药,有健胃消食的作用;荜茇、白豆蔻、肉桂为臣药,共奏温中行气、化滞除湿的作用,对脾胃虚寒等寒症效果显著;红花可为佐药,活血化瘀,可对消化道的供血功能进行调理。

对高频药物进一步展开因子分析,可以得出传统文献记载的方剂中包含的遣方思路。公因子F1 的组方药物与关联规则分析的结果相似,因此其组方思路不多做赘述;公因子F2 以清热泻下、消除壅滞为主;公因子F3 主要起清热疏肝的功效、公因子F4 主要提升胃温、F5 以温中散寒为主;F6 主要是清热止泻;F7 则以行气止痛、提胃阳为主;F8 则是清热滋补、活血的功效;F9 为除寒健胃;F10 可杀虫解毒、消积利便;F11 体现了健胃消食、强体壮肌为主的遣方思路。

本文使用多种数据挖掘技术,分析藏医药传统方剂治疗消化系统疾病的用药规律,可以发现其核心药物搭配与隐含的组方思路。该研究对发掘方剂中的用药规律以及优化药方有较大的意义。

猜你喜欢
方剂医药数据挖掘
中药方剂在治疗黄褐斑中的应用
《金匮要略》黄芪类方剂探析
论方剂的配伍环境
传统医药类非遗
基于并行计算的大数据挖掘在电网中的应用
甘草在方剂中的作用及配伍规律
医药下一个十年 创新为王
一种基于Hadoop的大数据挖掘云服务及应用
《中国当代医药》来稿要求
《中国当代医药》来稿要求