云南稀贵金属材料基因工程数据库平台建设及发展研究

2023-10-05 11:47苗亦新岳忠孝杨晶晶
云南科技管理 2023年4期
关键词:基因工程贵金属液态

黄 琳,苗亦新,岳忠孝,杨晶晶

(1. 云南大学,云南 昆 明 650093;2. 云南省科学技术院,云南 昆明 650500)

0 引言

我国稀贵金属材料产业与国外稀贵金属材料产业相比,仍存在基础研究薄弱、高端产品技术难以突破、部分关键材料卡脖子等问题。云南稀贵金属材料产业,拥有全球最完整的锡产业链,全国最完整的贵金属、锗、钛、液态金属(镓)等产业链,拥有国内贵金属、锡、铟、锗、镓等稀贵金属材料最全的产品门类体系,钛产品在国内钛材产业链中具有举足轻重的地位。但是,云南省新材料产业依然处于价值链中低端,国内高端稀贵金属新材料产品大多依赖进口。材料基因工程利用超大计算能力和大数据处理技术,交叉融合高通量计算、高通量实验和数据库技术,以更短的时间、更低的成本,创新材料研发模式,加速稀贵金属新材料设计与研发。文章介绍了云南省稀贵金属材料基因工程数据库平台情况,包括涵盖多个稀贵金属元素性能和特性参数库,围绕计算、实验、服役、生产的贵金属、锡、铟、锗、钛、液态金属等重点金属领域的专用数据库。概述了机器学习的稀贵金属材料数据库建模与数据分析,以及人工智能方法在材料基因工程数据库平台的应用,提出了进一步研究重点。

1 材料基因工程

1.1 材料数据库

材料从物理化学属性来看,可分为金属材料、无机非金属材料、有机高分子材料和不同类型材料所组成的复合材料。材料数据种类繁多,包括实验、计算、生产、文献数据等,表现形式有文本、图像、视频等多样格式,材料数据存储在关系数据库中。随着数据库技术的发展,材料领域在国内外出现了一大批材料数据库,国外主要的材料信息数据库平台有MaterialsAtlas[1]、Materials project、Aflowlib、NIMS 等[1]。

我国积极建设材料数据库,取得积极效果。2015 年启动建设“国家材料科学数据共享网”,初步建成了较为完整的材料科学数据体系和共享与服务网[2]。2016 年启动“国家材料基因工程高通量计算、高通量制备表征、数据库”等重点研发计划;2018 年启动了“国家材料基因工程数据汇交与管理服务技术平台”和“材料基因工程专用数据库平台建设与示范应用”等有关国家重点研发计划项目[3]。北京有色金属研究总院的有色金属数据库,包括360 种铝合金数据,还有铜合金和部分稀有金属数据;中科院材料基因实验室Matclud,高通量材料集成设计平台,包含大量计算数据库[4]。

现有的材料库主要是材料基本性能参数数据库,收录的稀贵金属材料种类和性能数据不全面,极少建立专门的稀贵金属数据库。

1.2 稀贵金属材料基因工程

传统的材料研究以实验研究为主,一般而言,新材料的应用时间跨度非常长。美国在2008 年首先提出“材料基因组计划”(MGI),包含利用互联网计算机与材料数据相结合实现跨层次多尺度计算,加快材料设计研发进程,使新材料研发至少加快1 倍,成本至少降低一半。我国积极行动应对材料基因组计划,先后启动了“材料基因组计划”重大项目。2015 年科技部将“材料基因工程关键技术及支撑平台”列为“十三五”国家重点研发计划目。云南省于2018 年启动稀贵金属材料基因工程专项[5]。

1.3 云南稀贵金属材料基因工程

云南省具有得天独厚的稀贵金属资源例如锡、铟、钛、锗、锌、银、铂族等多种稀贵金属储量位居全国前列,已初步形成了稀贵金属材料产业集群,拥有全球最完整的锡产业链,全国最完整的贵金属、锗、钛、液态金属(镓)等产业链,钛产品在国内钛材产业链中具有举足轻重的地位,拥有30 余个国家级、省级研发平台。云南省稀贵金属材料基因工程专项集中稀贵金属领域的优势资源和力量共同开展工作,重点开展贵金属、锡铟、钛、锗等材料基因工程的高通量计算、高通量制备与表征、数据库3 大平台建设,实施一揽子核心关键材料攻关及产业化,构建基于数据驱动的稀贵金属材料研发及工程化应用示范协同创新体系。云南省稀贵金属材料基因工程(一期)总体布局如图1 所示。

图1 云南省稀贵金属材料基因工程(一期)总体布局

2 稀贵金属材料基因数据库平台

稀贵金属材料基因工程数据库平台是云南省稀贵金属材料基因工程重点建设平台,主要搭建稀贵金属材料基础参数库及专业数据库,采用人工智能与机器学习技术变革材料研发与应用过程,发挥稀贵金属材料专业数据的引领作用[6]。平台以稀贵金属参数数据库为基础,各稀贵金属材料板块为专题数据库,涵盖金、银、铂、钯、铑、铱、钌、锇、锡、铟、液态金属共11 个元素的稀贵金属参数数据库建设,其中专题库包括贵金属基础数据、合金材料数据、催化材料数据、电子浆料数据、分子材料数据、熔渣相图数据、锡材料数据、液态金属材料数据共8 大板块、15 个数据子库,数据量超1 400 万条;专业数据库数据数据量200万余条,存储容量270TB。稀贵金属参数数据库平台采取集中加分布模式来部署系统,同时,为了确保知识资产的安全性,根据内外网隔离的实际情况,稀贵金属参数数据库分为内网稀贵金属参数数据库平台和外网稀贵金属信息服务平台两个平台。稀贵金属材料基因工程数据平台建设内容如图2 所示。

图2 稀贵金属材料基因工程数据平台建设内容

2.1 稀贵金属基础参数库建设

稀贵金属参数数据库建设包括稀贵金属材料相关历史数据,通过开发软件采集、加工和处理技术,被整理、融合、入库,形成系统性的、具有统一标准、融合多尺度数据的稀贵金属材料基因工程基础参数数据库。从已具备的工作基础和数据资源考虑,参数库建立金、银、铂、钯、铑、铱、钌、锇8 个贵金属元素以及锡、铟、液态金属,共11 个元素的数据,数据内容包括所有能搜集到、可获得的材料成分、结构、组织、工艺参数、热力学参数、晶体学参数、材料性能、服役性能等常规数据和各类材料特性性能参数数据,以及产品数据、企业数据、行业数据和相关知识库资源,为后续专用数据库的建设奠定基础。其技术路线如图3 所示。

2.2 稀贵金属专业数据库建设

稀贵金属专业数据库围绕贵金属、锡、铟、钛、液态金属等重点金属领域,建设各系列材料专业数据库。研发相应的数据库技术、材料智能化的设计开发技术与高通量制备表征关键,建立符合通则要求的元数据、数据库及数据生产过程与数据应用等标准体系和相关管理规范,研发在三大平台间数据自动采集传输技术和解析处理技术,开发面向各类计算实验数据文件的数据后处理程序,培养和汇聚软件开发、材料计算、实验研发、生产工艺等多学科多领域的人才团队,为数据驱动下的数据库智能化应用搭建坚实的平台与技术基础。平台建设包含贵金属材料专业数据库含8个专业子库、锡铟专用数据库,钛合金专业数据库,液态金属专用数据库等。

2.2.1 贵金属专用数据库

贵金属专用数据库平台以《材料基因工程数据通则》为建设指导,设计和建立贵金属子库的元数据标准规范,数据库系统包括结构层级管理,数据表构建管理,数据权限管理,数据关联汇总等功能;数据管理系统包括数据可视化分析,数据存储管理,数据接口管理等功能。整合数据调用与数据管理、应用需求,在贵金属合金与熔渣、钎焊材料、电接触材料、存储材料、键合材料、电子浆料等专业子库的高通量计算实验数据。设计以样品编号作为关联信息,来构建各类实验数据和计算数据的样品信息、源数据、衍生数据的关联架构,支持8 个子库的专业数据入库存储管理,支持不同子库间的数据调用和数据关联,支持基于OpenAPI 的数据访问接口,解决计算数据、实验数据相关的存储访问的关键技术问题。同时,设计支撑8 个子库的实验计算数据入库的数据表模板270 余个,形成贵金属专业数据性能指标5 000 余个。

2.2.2 锡铟专用数据库

锡铟材料专用数据库平台,本地化部署平台的机器学习通用性算法,形成了三个材料标准化数据规范。高纯铟信息化改造方案中的软、硬件现场验证、高纯铟生产管理系统以及锡铟材料知识发现系统的开发,并通过大屏可视化硬件、服务器、防火墙、交换机等硬件部署完成数据的可视化。高可靠无铅锡基焊料合金,完成高速焊点推拉力试验机安装调试,实现从块体合金性能评价到焊点、界面断裂性能的评价、实现焊点性能快速评价,建立了助焊剂原料性能数据库和助焊剂剖析的研究方法,建立锡基阻燃材料应用专用数据库。全链条锡铟材料专用数据库数据量超过10 000 条。

2.2.3 钛合金专业数据库

钛合金专业数据库平台,包括钛合金材料数据、实验数据规划及数据模板研发及合金材料数据、钛合金性能数据、标准管理、行业字典等结构化、半结构化数据存储及管理研发。采用形式化语言定义钛合金数据库中涉及的各类结构化、半结构、无结构化数据的数据模板,定义数据样式,对钛合金材料的成分、物相组成、晶体结构、制备及生产工艺、性能及其测试方法等各方面的数据建立数据描述模型。根据钛合金全流程数据规范及数据模板研发要求,围绕钛合金从研发、实验、生产、产品等环节,以钛合金材料管理、化学成分管理、产品图片管理、实验管理、标准管理、模拟系统生产工艺管理等为主制订了20 余个典型或可配置的数据规范及数据模板。

2.2.4 液态金属专用数据库

液态金属专用数据库基础平台,开发了液态金属材料专用数据库V1.0 版软件系统,目前在试用阶段,支持对文献数据、实验表征以及制备工艺数据的动态录入。形成液态金属专用数据库,积累高通量计算数据4 万条,行业信息数据5 000条。推动基于机器学习等数据挖掘算法,开发了一套液态金属材料的数据计算分析框架,研发了基于集成学习的液态金属深度集成网络,采用多元集成模型搭建液态金属专属预测模型,能够较为准确预测指定金属元素配比下的液态金属的电导率、热导率、黏度等性能指标,目前已根据模型预测模拟数据超20 万条。

3 数据挖掘和机器学习在数据库的应用

云南稀贵金属材料数据库建立了人工智能分析应用平台,将深度学习方法在结构、特征建模与数据分析充分利用[7]。分析稀贵金属材料基因高性能计算平台数据,对材料数据的时空特征和动态相关性进行建模,设计稀贵金属材料的时空图卷积网络模型,挖掘稀贵金属材料结构与性能间的内在关系属性,构成网状的材料知识结构,建立高鲁棒性的特征提取和表征模型[8]。搭建稀贵金属材料的深度学习数据分析平台,基于GPU高性能计算资源,集成深度学习算法,构建面向多种稀贵金属材料的联合数据分析软件集群。

3.1 稀贵金属材料数据挖掘与机器学习

在稀贵金属材料数据挖掘与机器学习领域,利用大数据分析和机器学习方法,通过人工智能分析应用工具库平台,包括回归分析、贝叶斯优化、蒙特卡罗树、模拟退火、遗传算法、粒子群优化算法,对数据进行机器学习和应用验证,获得材料性能、趋势、设计等数据并入库[8]。在贵金属电接触材料、键合材料、电子浆料用、催化等数据库及所建立的构效关系模型上,进行机器学习和应用验证,预测和发现新材料、新性能。

3.2 锡铟机器学习与数据挖掘算法库

在锡铟数据库,建设综合运用算法库中各类算法的智能化机器学习平台。高纯铟数据平台上,研发稳定生产优化模型并研发优化控制软件,利用上海大学自主知识产权的模式识别最佳投影技术,建立高纯铟稳定生产的机器学习优化模型,开发优化控制软件,具备自学习的模型维护、对实时数据的诊断与预测、优化操作的指导等功能。在机器学习与数据挖掘算法库建设上,将机器学习与数据挖掘算法示范应用于锡、铟材料基因工程全研究链,包括设计、制备、表征、性能优化。建立基于机器学习的变量筛选、模型优化、模型评价、由结果指导实验等人工智能技术。构建锡铟知识图谱与知识发现系统,以知识图谱理论与技术为基础,在锡铟材料领域构建智能搜索引擎,研发锡铟知识发现系统。通过定义锡铟材料本体、数据模式,在整合锡铟数据基础上进行知识抽取、知识推理、更新迭代,形成高质量的知识库,构建锡铟知识图谱。

3.3 稀贵金属数据库工程应用

稀贵金属材料基因工程工程化建设是数据的生产、管理与应用示范,针对稀贵金属功能材料、催化材料、电子浆料、分子材料等二元到更多元的稀贵金属材料体系,以及高纯稀贵金属材料,进行微观、介观、宏观等多维度、多尺度材料的高通量计算和实验,自动采集解析入库,形成覆盖材料计算数据、实验数据、生产过程数据和产品性能数据的完整贵金属数据库体系。稀贵金属材料基因工程工程化应用示范如图4 所示。

图4 稀贵金属材料基因工程工程化应用示范

利用稀贵金属材料基因工程技术开展 “理性设计- 高效实验- 数据分析”深度融合、协同创新的稀贵金属新材料研发示范,开发列产品,并开发出了相关材料。支撑新建年产5 吨高纯铟扩大线、年产200 吨的高性能锡基阻燃剂应用示范线及贵金属催化材料、低成本高耐蚀钛合金、液态金属相变散热片等生产线。

4 发展趋势

下一步,继续将材料领域知识与机器学习技术相结合的材料智能研究[9],构建稀贵金属材料基因知识库建设,高效的知识组织模型的稀贵金属知识图谱,材料领域知识进行表示、组织和推理,智能水平,并进一步扩展稀贵金属材料知识库范围。针对稀贵金属材料基因大数据库的数据价值挖掘,进行稀贵金属材料数据之间的合作,促进数据的共享和流通,搭建云南稀贵金属材料基因大数据的开放共享平台。同时,基于稀贵金属材料基因工程数据库进行战略核心关键材料的开发与规模产业化,对“卡脖子”材料开展的计算、实验、生产及应用的全链条数据入库并学习挖掘[10]。构建大数据驱动新材料研发的协同创新体系,积极推进国际一流、国内领先的建成系统、智能、部分数据可安全共享的全国首个贵金属、锡、铟、锗、钛、镓、铜等材料国家参数库,提升云南省稀贵金属材料产业国际竞争力,全面推进有色金属产业数字化转型和数字产业化。

猜你喜欢
基因工程贵金属液态
液态金属
贵金属单原子催化剂的制备及其在CO、VOCs完全氧化反应中的应用
水稻育性发育与基因工程实验室
“自然科学—人文探讨”在基因工程课程思政中的应用
“2020年中国贵金属论坛”顺利举办
《贵金属》征稿启事
艰辛与辉煌
——庆祝中国共产党成立一百周年贵金属纪念币展
基因工程菌有什么本领?
口蹄疫基因工程疫苗研究进展
2017年中外液态食品机械行业大事记