基于MATLAB的长春花生物碱含量的分析与预测

2019-07-01 02:35陈志远王云耿赵万里贺耀钦穆丽新刘英
智能计算机与应用 2019年3期
关键词:人工神经网络遗传算法激素

陈志远 王云耿 赵万里 贺耀钦 穆丽新 刘英

摘 要:长春碱是一种重要的天然抗癌药物。土壤营养成分(土壤含水量,土壤PH,有机碳,全氮,全磷,速效磷,碱解氮),和激素(6-BA(6-苄氨基腺嘌呤),IAA(吲哚-3-乙酸),ABA(脱落酸)),对长春碱含量有重要影响。本文采集了这10个研究条件和长春碱含量的原始数据,并且用MATLAB中的人工神经网络和遗传算法工具箱进行分析。结果显示土壤条件中全磷含量和土壤含水量的降低有利于提高长春碱含量,土壤PH,有机碳,全氮,碱解氮含量的升高有利于提高长春碱含量,土壤中速效磷和长春碱含量的关系不明显。激素中,IAA含量的降低有利于提高长春碱含量,6-BA,ABA含量的升高有利于提高长春碱含量。

关键词: 长春花;土壤条件;激素;长春碱;人工神经网络;遗传算法

文章编号: 2095-2163(2019)03-0190-05 中图分类号: S567.9 文献标志码: A

0 引 言

长春花(Catharanthus roseus(L.)G.Don)是夹竹桃科(Apocynaceae)长春花属(Catharanthus G.Don)植物,又称雁来红、日日新、四时春、三万花等,中医临床以全株入药。原产于非洲马达加斯加岛西印度一带的热带森林地区,早在宋代以前就传入中国[1]。长春花中含有多种生物碱。其中长春碱主要用于治疗何杰金氏病和绒毛上皮癌,对何杰金氏病治疗的有效率为68%,完全缓解率为30% 对淋巴肉瘤、黑色素瘤、卵巢癌、白血病等也有一定疗效[2]。长春碱是一种重要的药用生物碱。

植物次生代谢的概念最早于1891年由Kossel明确提出。植物的次生代谢是指由植物体内有机化合物的初生代谢途径衍生而来,最终合成一些具有种属特异性的有机化合物的代谢过程[3]。长春花体内可以产生大量的次生代谢产物,主要是化学结构属于萜类的生物碱,这类生物碱具有非常重要的药用价值。长春碱(Vinblastine)是其中的一种。植物的次生代谢是植物在长期进化中与环境(生物的和非生物的)相互作用的结果,次生代谢产物在植物提高自身保护和生存竞争能力、协调与环境关系上充当着重要的角色,其产生和变化比初生代谢产物与环境有着更强的相关性和对应性[4]。由于环境条件在次生代谢产物合成积累中具有重要诱导作用,在植物药材种植中为了保证和提高所需成分的质量,研究产物产量和环境因素的关系即已成为亟待探索的焦点研发课题。土壤和激素是植物生长所需环境因素的重要组成部分,土壤条件和激素对植物次生代谢产物有着重大影响。对此拟展开研究阐述如下。

1 研究现状

长春花作为重要的药用植物,体内含有丰富的次生产物,因其独特的药用价值、尤其是抗肿瘤成分而使长春碱备受多方关注。经过多年研究,植物领域中已经有多种手段用在生物碱含量的提高上。例如,采用遮光培育或干旱胁迫等方法对长春花植株进行干预,目前均已取得了一定的成果。但是当下国内外对长春花中生物碱含量与土壤和激素之间关系发表的研究,则主要集中在实验手段上并且对于直接作用于相应的土壤条件和激素,改变土壤水分含量、微量元素含量等方面研究较少。因为长春花培育需要一定的周期,土壤和激素中可能影响长春花生物碱含量的研究对象比较多,单纯用实验方法取得数据进行分析将严重影响后续研究。迄今为止也还未见到有利用计算机的聚类分析方法以及仿真方法对长春花生物碱含量与土壤、激素关系进行分析的先例。

2 BP神经网络和遗传算法

2.1 BP神经网络简介

BP神经网络是人工神经网络的一个基础组成部分。人工神经网络(Artificial Neural Networks),是一种模仿动物神经网络行为、进行分布式信息存储的数字算法模型[5-6]。通过将模拟神经元逐层排列,人工神经网络可以在无需事前揭示描述映射关系的数学方程的情况下,建立输入-输出模式映射关系。人工神经网络现已成为人工智能研究的重要领域之一。BP(Back Propagation)神经网络是一种单向传播的多层前馈网络,是目前应用最广泛的神经网络模型之一[7]。BP神经网络的核心思想在于将神经网络的预测值和原始数据的真实值加以比较,将输出误差以某种形式逐层反传,即将误差分摊给各层的所有单元,通过各层单元的误差信号来修正各单元权值。这种训练方式使得BP神经网络对输入变量较多的复杂问题有良好的应用效果。在收集到土壤条件和长春碱含量的基础上利用BP神经网络可以建立土壤中10个输入变量和长春碱的输入-输出模式映射。

2.2 遗传算法简介

遗传算法是一种进化算法,其基本原理是仿效生物界中的“物竞天择,适者生存”的演化法则。遗传算法是把问题参数编码为染色体,再利用迭代的方式进行选择、交叉以及变异等运算来交换种群中染色体的信息,最终生成符合优化目标的染色体[8]。当问题的输入输出函数或模式映射确定时,用遗传算法可以先利用染色体(二进制串)随机生成对应问题输入变量的幾组输入值。当获得输入值后,自然而然地可以得到输入值对应的输出。如果希望得到解空间内的近似最大值或最小值,就可分别根据输出选择输出值更大/更小的染色体。让其发生交叉变异,生成新的一代继续参与运算。最后经过指定代数的选择、交叉和变异,就可以得到输入输出函数或模式映射内的近似最大或最小输出以及对应的输入值。在使用BP神经网络处理原始数据后,研究得到了土壤的10个输入变量到长春碱的输入输出映射,此时利用遗传算法就可以找到长春碱含量的近似最大值和对应的输入变量的取值,从而为下一步的分析做准备。遗传算法的研发包括以下几个步骤:

(1)初始化:设置进化代数计数器t=0,设置最大进化代数T,随机生成M个个体作为初始群体P(0)。

(2)个体评价:计算群体P(t)中各个个体的适应度。

(3)选择运算:将选择算子作用于群体。选择的目的是把优化的个体直接遗传到下一代或通过配对交叉产生新的个体再遗传到下一代。选择操作是建立在群体中个体的适应度评估基础上的。

(4)交叉运算:将交叉算子作用于群体。遗传算法中起核心作用的就是交叉算子。

(5)变异运算:将变异算子作用于群体。即是对群体中的个体串的某些基因座上的基因值作变动。

群体P(t)经过选择、交叉、变异运算后得到下一代群体P(t+1)。

(6)终止条件判断:若t=T,则以进化过程中所得到的具有最大适应度个体作为最优解输出,终止计算。

3 实验方法

3.1 获得初始数据

在实验区域划分4块土地,对每块土地的土壤进行不同的操作,从而建立4个实验组。4个实验组分别为:对照组(CK)、对土壤使用一氧化碳供体的SNP的SNP组(SNP)、遮阴组、SNP+遮阴组,测量4组处理下土壤的7种物质,即:土壤含水量(%)、土壤PH、有机碳(g/kg)、全氮(g/kg)、全磷(g/kg)、速效磷(mg/kg)、碱解氮(mg/kg)和植物中的激素的含量,即:6-BA(6-苄氨基腺嘌呤)、IAA(吲哚-3-乙酸)、ABA(脱落酸)(以叶片为研究对象 单位为ug/g)与对应的长春花中长春碱(以叶片为研究对象,单位为ug/g)的含量,每个操作组收集3组数据建立初始数据表格,见表1。

3.2 确定BP神经网络结构

3.2.1 网络层数的设计

人工神经网络拓扑结构的确定对训练效果有很大影响。隐含层一般为1~2层,考虑到本实验有10个输入参数,复杂性较高,故设置2层隐含层,即BP神经网络的拓扑结构包括4层:输入层、2个隐含层和输出层。

3.2.2 各层神经元数目的确定

一般来说,输入层和输出层神经元的数目由具体问题决定。输入层节点数目等于输入变量的个数,本实验有10个条件,因此输入层节点数取10。输出层节点的数目等于输出变量的个数,本实验研究长春碱含量,因此取1。隐含层节点的数目对于网络的性能起着至关重要的作用,但目前尚无统一的标准来确定,常以经验公式作为参考。隐含层节点数在采用经验取值的基础上反复试凑,测试显示隐含层采用21-21结构的平均相对误差最小,最终确定BP神经网络的拓扑结构为10-21-21-1。

3.2.3 学习函数与传递函数以及其它参数的设定

本实验使用训练速度最快的traincgf作为学习函数,考虑到长春碱输出的范围在0~1之间,使用logsig作为传递函数。本模型的学习率lr的初始值取为经验值0.01。为了能够使神经网络达到比较小的误差,研究选定的训练目标为1e-8,训练次数为5 000次。

3.3 选择训练集与测试集训练并测试神经网络

神经网络的训练效果不仅要看其是否能够很好地符合给定的训练数据,也要视其是否能够对新数据做出合理的预测,因此有必要在原始数据中划分训练集和测试集。

取表1中第六行、第九行、第十二行作为测试集,其它作为训练集。考虑到10个输入变量由于自身性质在土壤中含量相差很大,直接训练会导致训练误差和预测误差过大。因此需要对2个集合中的10个输入变量做适当处理,例如将某个输入变量扩大,某个输入变量缩小,使得数据间的数值差距减小。在关于如何处理数据、从而获得好的训练效果上,目前还没有固定模式。通常的做法是不断进行测试,找到对每个自变量合理的处理方式。经过大量测试发现,当土壤含水量、土壤PH、6-BA、IAA、ABA、有机碳、全氮、全磷、速效磷、碱解氮这10个变量分别扩大0.1、1、100、100、100、0.1、10、10、10、1倍后训练效果最好,误差最小。

训练集负责训练BP神经网络,测试集负责测试训练好的神经网络的预测能力。具体方法为:输入测试集的10个输入变量,将神经网络给出的预测值和真实值进行比较,用MATLAB默认的MSE函数计算误差。

3.4用遗传算法寻找有利于提高长春碱含量的土壤条件

遗传算法可以生成设定范围内的值作为训练好的神经网络的输入变量,这里则是把初始数据中每个输入变量的最大、最小值当作该变量取值范围。输入变量的最大精度为小数点后四位,考虑到每个输入变量的取值范围,个体长度取20即可满足需求。其它参数设定较为宽松,研究将其设为经验值。遗传代数取为20,代沟设为0.95,重组(交叉)概率和变异概率分别设为0.7和0.01。经过20代的遗传,可以得出在长春碱取值较大时输入变量的取值。记录下10组数据。将初始数据中每个输入变量的最大、最小值的平均值设为A。统计10组数据中每个输入变量小于A和大于等于A的个数,分别设为B和C,当B与C之间的差值在4或4以上时可以认为该输入变量取升高或降低有利于长春碱含量提高。否则认为该输入变量与长春碱含量联系不显著。

4 实验结果与结论

选定的BP神经网络经过训练后取得了比较好的效果,使用MATLAB软件默认的误差计算方式MSE使训练集误差达到了7.28e-11,同时神经网络对测试集的预测值和实际值之间的误差也达到了9.72e-05。

神经网络训练过程中误差的变化情况如图1所示。由图1可以看出,traincgf函数的训练速度非常快,在第26次训练时就达到了1e-8的目标误差。

用遗传算法寻找长春碱获取近似最大值时,可得各条件的预测值,并记录10组数据,结果见表2。在理想条件下,神经网络预测长春碱的含量可以进一步提高到0.27 ug/g以上。

研究求得初始数据的长春碱平均含量为0.124 929 ug/g,遗传算法找到的10组数据中长春碱的平均含量为0.270 437 ug/g,且数值波动小,相对于初始数据有较大提高。

将初始数据中每个输入变量的最大、最小值的平均值设为A。统计10组数据中每个输入变量小于A和大于等于A的个数,分别设为B和C,当B与C之间的差值在4或4以上时,可以认为该输入变量取升高或降低,有利于长春碱含量提高。否则认为该输入变量与长春碱含量联系不显著。经过统计,得到结果见表3。

由表3中可以看出在设定的取值范围内,土壤条件中全磷含量和土壤含水量的降低有利于提高长春碱含量,土壤PH、有机碳、全氮、碱解氮含量的升高有利于提高长春碱含量,土壤中速效磷和长春碱含量的关系不明显。激素中,IAA含量的降低有利于提高长春碱含量,6-BA,ABA含量的升高有利于提升长春碱含量。

5 结束语

探究环境条件与植物体内的激素表达水平之间的关系是目前生物领域的一大重点问题。由于目前对各种植物体内代谢的微观过程了解程度尚属有限,大规模、长时间的栽培实验依然是主流研究手段。本文用人工神经网络探讨了长春花的10个研究条件和长春碱表达水平的关系。训练出的模型既有效地拟合了训练数据,同时也有较好的预测能力。得到的结论缩短了传统实验的周期,也是对下一步实验方向的有益指引。这种研究方式对相关研究领域提供了新的思路。

参考文献

[1] 杨莹莹, 张广晶,徐雅娟,等. 长春花化学成分研究进展[J]. 世界中医药,2014,9(7):955-957,960.

[2] 祖元刚,罗猛,牟璠松,等. 长春花生物碱成分及其药理作用研究进展[J]. 天然产物研究与开发,2006(2):325-329,294.

[3] 华晓雨,陶爽,孙盛楠,等. 植物次生代谢产物-酚类化合物的研究进展[J]. 生物技术通报,2017,33(12):22-29.

[4] 闫秀峰,王洋,李一蒙. 植物次生代谢及其与环境的关系[J]. 生态学报,2007,27(6):2554-2562.

[5] 于源. 人工神经网络在机械优化设计中的应用[J]. 设备管理与维修,2018(22):154-155.

[6] 张德丰. MATLAB神经网络仿真与应用[M]. 北京:电子工业出版社,2009.

[7] 沈花玉,王兆霞,高成耀,等. BP神经网络隐含层单元数的确定[J]. 天津理工大学学报,2008,24(5):13-15.

[8] 郁磊,史峰,王辉,等. MATLAB智能算法30个案例分析[M]. 2版.  北京:北京航空航天大學出版社,2012.

猜你喜欢
人工神经网络遗传算法激素
谈激素色变?没必要!
激素怎么用才安全
基于人工神经网络的故障诊断专利浅析
激素草莓能吃吗
人工神经网络发展历史与训练算法概述
基于遗传算法对广义神经网络的优化
基于遗传算法对广义神经网络的优化
基于遗传算法的临床路径模式提取的应用研究
基于遗传算法的临床路径模式提取的应用研究
遗传算法在校园听力考试广播系统施工优化中的应用