NAND闪存固态硬盘空间环境效应分析及测试系统设计

2018-12-19 02:07辛敏成邹田骥张海涛
航天器环境工程 2018年6期
关键词:电源可靠性芯片

李 鹏,刘 凯,辛敏成,赵 楠,邹田骥,张海涛

(1.中国科学院 空间应用工程与技术中心,北京 100094; 2.中国科学院大学,北京 100049;3.北京国科环宇空间技术有限公司,北京 100190)

0 引言

硬盘作为数据存储和传输的重要媒介,是航天电子产品中的关键重要部件。传统机械硬盘(hard-disk drive,HDD)受制于机械架构的影响,主轴转速的提升空间极其有限,并且其活动部件会出现磁头磨损、介质滑擦、主轴电机故障等可靠性问题,造成使用寿命不足。固态硬盘(solid state drive,SSD)凭借容量大、体积小、速度高、功耗低、无噪声、掉电数据不丢失、抗振动冲击、温度适应范围宽等优势,在航天领域得到广泛应用,数量可观,地位重要[1-2]。据统计,仅2016年,全球SSD的出货量就超过1.3亿块,总容量约为50艾字节(260字节)。随着越来越多的数据存储在SSD中,尤其是随着我国载人航天工程空间科学、空间应用的发展需求,对空间应用大容量存储单元的功能性能要求越来越高,同时提出了低功耗、长寿命和低成本的可靠性要求,因此研究其空间环境可靠性水平变得至关重要。

截至2017年年底,关于SSD可靠性的研究大多数局限在实验室少数芯片综合工况试验,采用的办法通常基于固态技术协会(JEDEC)标准,通过反复读写循环加速磨损达到加速考核的目的。JEDEC在2008年联合硬盘用户、SSD生产商、NAND生产商联合制定发布了SSD鉴定标准JESD218和JESD219,详细规定了SSD寿命测试及数据保持测试规范[3-4];Mielke等人针对SSD可靠性的争议问题,阐述了如何通过合理设计规避NAND失效机理以提升SSD可靠性,还论证了如何依据JESD218规范以及其他基于NAND故障物理的方法,运用实验室试验手段开展SSD全寿命周期可靠性验证[5];Schroeder等人回顾了近两年Facebook、Google、Microsoft三家公司的数据中心实际应用SSD类产品的失效报告,分析了NAND闪存SSD在批量化生产、现场使用工况下的可靠性问题,指出了目前学术界及工业界在实验室试验和某些基本假设上的不合理之处[6];Compagnoni等人对NAND闪存技术的发展进行综述,着重介绍了NAND闪存主要性能参数的演变,解释了NAND闪存逐步侵蚀机械硬盘的市场份额,发展成为最重要的非易失性数据存储集成解决方案的要因[7];Boyd等人为探究SSD相比于HDD的发展前景,提出了一种量化闪存生产过程环境影响的NAND闪存寿命周期评估方法,涵盖了150、120、90、65和45 nm等5代产品[8]。

目前我国对SSD的空间环境效应、失效机理模式、地面模拟试验方法和加速试验技术等几个方面所开展的系统性研究还不多,尚未完全掌握SSD空间环境性能参数的变化规律,对SSD失效模式和失效机理不清,缺少相应的空间环境性能和可靠性指标。以至于在航天器的可靠性设计中,只能基于经验对SSD采取冗余设计、降额使用,或增加空间环境地面模拟试验项目,限制了设计水平的提升。

为分析NAND闪存SSD的空间环境效应,奠定后续商用SSD空间应用的可靠性评估研究基础,本文设计了一套可覆盖热循环、热真空、空间辐射等典型空间环境效应的SSD试验系统,实现了参数自动监测,数据采集、处理、图形化显示、存储、回放等功能,可监测批量SSD的SATA接口供电电压、电流、平均和实时读/写速率、平均读/写响应时间、写入数据量等性能参数,并定期检查记录SSD的磁盘容量情况,还能调节测试策略(读写比例、数据包大小、访问模式),控制供电电压。

1 SSD概况

1.1 结构与工作原理

基于NAND闪存的SSD的基本功能是通过标准SATA接口与主机系统进行数据存储与交换,主要由主控芯片、缓存芯片、NAND闪存芯片、电源芯片和SATA接口组成[9],如图1所示,主控芯片作为支持SSD的定制化微处理器,负责NAND闪存与主机间的通信传输;缓存DRAM作为主控的工作内存,并运行固件;NAND闪存包含多块NAND芯片,主要用来存储数据,占据了印制板大部分空间;电源芯片处理5 V直流电压,为各功能单元供电。SATA接口为SSD与主机间数据和电源交互的接插件[10]。SSD的基本工作原理是:SSD通过SATA接口与计算机相连,数据和电源通过SATA接口分别接入主控芯片和电源芯片,电源芯片将电源降压后向各功能单元供电;主控芯片将数据进行逻辑地址和物理地址转换后,分配到各NAND闪存上进行读写操作,主控芯片与闪存之间的数据交互缓冲由缓存芯片完成,如图2所示。

图1 Intel S3500系列SSD开盒后芯片及器件全貌Fig.1 Intel S3500 series SSD with case removed and notable components identified

图2 SSD基本结构框图Fig.2 Basic structural diagram of SSD

1.2 主要性能指标及故障分析

SSD的主要工作性能指标可以用工作电流、读写速度以及坏块数量来进行表征。

1)工作电流

工作电流包括写入电流和读取电流,主要取决于环境条件、操作平台(计算机CPU、接口类型等)、读写数据包大小、闪存状态等因素。工作电流不仅可以表征SSD稳定工作的能力,还能反映其连续工作时性能的漂移特性和退化特性,是进行可靠性分析的重要数据来源。

2)读写速度

SSD具有顺序和随机2种读写方式。顺序读写方式主要用于传输大量连续数据的工况,该方式的关键衡量指标是数据吞吐量,其单位为MByte/s;随机读写方式主要用于频繁传输小文件的工况,该方式的关键衡量指标是单位时间(一般为每秒)内系统能处理的I/O请求数量(input/output per second,IOPS)。SSD的读写速度主要取决于环境条件、操作平台、读写数据包大小、闪存状态、内部算法等因素,反映了其是否故障的状态。

3)坏块数量

在对SSD进行读写操作时,闪存中的某些块在数据写入或擦除过程中会产生无法校正的错误,此时主控芯片将这些块标记为坏块,不再对其进行读写操作。SSD的坏块数量主要取决于环境条件、读写负荷、闪存状态等因素。当SSD长期执行数据读写和擦除后,随着无法校正错误的增加,其坏块数量也将会增加,这反映了SSD长时间工作的性能特征变化。

工业界对SSD可靠性及故障的研究主要集中在硬盘故障、无法校正的错误、静态错误等3个方面。其中硬盘故障定义为硬盘功能失效或者性能衰退至用户不再使用;无法校正的错误定义为当主机发出读取指令时,硬盘响应为数据不可恢复的信号;静态错误定义为当硬盘向主机发送损坏数据时,未出现报错信号。根据SSD的故障模式及影响分析(FMEA)结果,常见的SSD故障主要有3类:

1)NAND闪存单元故障,包括原始比特错误(raw bit error)、写入错误(program error)、读取干扰(read disturb)、数据保持发生错误(data retention error)等。闪存有天然的数据比特翻转率,大部分失效机理可归因于氧化层陷阱效应,因为SiO2薄膜中的不完全原子键,例如隧道氧化物,可以捕获负电荷或正电荷。

2)其他集成电路故障,例如金属互联丝腐蚀、制造缺陷、辐射软失效等。JESD122H标准中列举了集成电路常见的15种失效模式,主要是磨损失效。可以通过加速试验的方法预计集成电路的正常寿命。

3)固件与裕度设计故障,无法进行加速试验设计,须采用仿真或大样本试验进行验证。

2 SSD空间环境效应分析

SSD在寿命周期内需要经历地面环境、发射环境、空间环境和工作环境。地面环境包括在地面运输过程中所受到的振动、冲击环境,在贮存期间所经历的温度、湿度环境;发射环境包括运载器发射时产生的振动、冲击、噪声及加速度等环境;空间环境包括真空、高低温(交变)、微重力,以及电磁环境和空间高能粒子辐射等。本文所研究的空间环境聚焦SSD在轨工作应力,具体可分为空间环境应力、工作应力和平台环境应力3类[11]。

2.1 空间环境应力

空间引力场造成的失重,空间电磁干扰对SSD的影响不大;空间光辐射仅对材料造成老化、镀层损伤;等离子体引发的充电放电通常作用于航天器表面包覆材料、涂层,而舱内的SSD多位于机箱内,且有外壳保护,故等离子体对SSD内部芯片的影响可忽略不计;微流星体和轨道碎片造成的微振或冲击,以及平台的微振会使接插件接触表面产生微小的相对运动,造成微动磨损和微动疲劳,引起镀层剥落、接触点断裂等,但可通过防护设计减少此类失效。因此,温度、真空、粒子辐射、供电环境、工作频率是影响SSD可靠性的主要因素。

1)温度变化影响

MLC(multi-level cell,多层单元)型闪存颗粒中每个cell需要存放2 bit 数据,即电平要被分为4档,当电平值漂移时会出现原始比特错误,而电平的分布取决于已擦写次数和温度。NAND闪存的原始比特错误率(RBER)会随着擦写次数增加而增加,高温和温度循环会造成NAND闪存在工作中读写性能逐渐下降,导致SSD无法正常工作,直至失效。

2)真空影响

真空出气效应会使芯片或电路板表面吸附的气体从表面脱离,同时,溶解于内部的气体将从内部向边界扩散,从而导致芯片物理结构、化学成分的改变,形成微孔、裂纹,使抗振动冲击性能下降。而且,材料释放出的气体重新黏附在其表面,可能会造成表面电阻增大。

3)粒子辐射影响

高能粒子辐射引起等离子体径迹,产生电荷在径迹内流动,芯片的寄生器件或薄弱环节被激活,从而造成芯片特性或功能的暂时性或永久性改变,引发位移损伤、单粒子效应、总剂量效应等空间辐射效应。由宇宙射线产生或者封装材料中微量放射性杂质释放出的高能粒子(高能质子或重离子)击中集成电路,会引发电路故障,造成辐射引起的软错误。而外部粒子辐射电荷积累形成总剂量效应,可能导致芯片的性能漂移、功能衰退,严重时造成完全失效或损坏。

2.2 工作应力

SSD需要在供电环境下进行数据读、写、擦工作,在轨工作时其受到的工作应力为施加在SATA接口的电流和电压,以及擦写操作的次数,即工作频率。

1)电压影响

当NAND中存在固有或外部缺陷时,电源芯片、主控芯片、缓存芯片、闪存芯片介质击穿的概率与施加的电压呈指数关系[5]。

2)工作频率影响

擦/写操作会使隔离浮栅极的电化学键变弱,绝缘层效果变差,浮栅极电子容易逸出,致使NAND芯片上电压升高,因此频繁擦写会增加芯片故障发生的概率。

2.3 平台环境应力

SSD安装在舱内,在轨工作会受到系统平台和舱内其他元件的影响,包括平台微小振动、其他元件的电磁干扰等,造成如插接件接触不良、开路/短路等。

2.4 小结

根据SSD的结构、材料和功能,以及空间环境效应的分析结果,初步确定可能影响SSD可靠性的敏感应力源为温度、真空、粒子辐射、电压和工作频率。因此为开展相应空间环境地面模拟试验,分析各敏感应力变化对芯片性能特性的影响,以及综合应力下芯片性能特性随时间的变化规律,为商用SSD的空间应用提供可靠依据,同时考虑试验可行性,应开展温度、辐照(总剂量效应、单粒子效应)、热真空等3类试验,且均同时施加电压和工作频率应力。

3 SSD测试系统搭建

3.1 方案概述

整个测试系统基于工业加固硬件和商用测试软件,其核心是1块加固型主板,主板上提供4个标准SATA接口。主板运行Windows桌面系统,使用开源的商用测试软件Iometer,通过SATA数据接口监测SSD平均读/写速率、实时读/写速率、平均读/写响应时间、写入数据量以及容量等性能参数。通过电源内置的监测模块Keysight对电压和电流进行记录,数据通过以太网导入主板中,由软件进行读取。

试验系统主要包括测试机、SSD、测试机电源、程控电源、外接设备以及相关线缆。在开展温度试验或辐照试验时,系统架构如图3所示,只有待测SSD置于试验环境中,程控电源、测试机电源,测试机及其键盘、鼠标、显示器等外设均位于试验环境外。在开展热真空试验时,测试机和SSD置于试验环境中,程控电源、测试机电源以及测试机的键盘、鼠标、显示器等外设位于试验环境外,系统架构如图4所示。

图3 温度试验或辐照试验系统架构Fig.3 System diagram for temperature testing or space radiation testing

图4 热真空试验系统架构Fig.4 System diagram for thermal vacuum testing

3.2 硬件设计

测试机选用工业加固型成熟计算机主板,通过电缆从外部电源取电。测试机通过SATA数据接口连接SSD,控制、监测SSD相关性能特性参数。测试机SATA电源接口无法实现对电压和电流的监测,因此SSD供电采用单独的供电线,连接到外部的输出电源,程控电源在试验过程中通过SATA电源接口为SSD提供可调节电压5×(1±5%) V,并利用内置功能模块记录电压和电流情况。

为了避免试验环境对系统的影响,必须对系统采取防护措施。在温度循环试验时,由于温箱侧壁有线缆开口,且距离不长,可将测试机放置在温箱外,通过线缆和内部的SSD连接(建议线缆长度不超过0.5 m),此时测试设备可不受测试环境的影响;在脉冲激光单粒子试验时,开封后的SSD置于激光脉冲发生器试验台上,其他与温度循环试验类似;在总剂量试验时,为避免辐射源对试验系统的影响,采用铅砖进行遮挡;在热真空试验时,由于需要较长的走线距离,且需要通过专门的密封接插件实现内外部的信号通信,而普通真空罐所用的92芯连接器一般只用于供电和低速通信,SATA接口的高速信号无法引出,因此,测试机需要和SSD一同置于试验环境内,再将分析处理后的结果通过RS-232低速通信接口引出至试验环境外。

热真空环境对测试机的影响主要体现在气压和温度2方面,主板上电解电容等器件在低气压时可能损坏,因此拟使用密封盒将主板进行密封隔离处理,密封盒上开走线孔,供线缆穿行,并在走线后对开孔处进行密封处理。另外,在真空条件下主板散热会受到影响,一旦过热,主板会自动进行断电保护。因此,整个测试需要严格控制主板工作时间,无法长期持续工作,只能进行间断测试,每次测试完成后关机,以控制主板发热情况。

3.3 软件开发

试验系统软件由Iometer软件、SSDTS软件、Access数据库3部分集成。其中,Iometer软件负责部署、执行对SSD读写指标的测试,实时将平均读/写速率、实时读/写速率、平均读/写响应时间、写入数据量等相关数据发送给SSDTS软件。SSDTS软件负责接收Iometer软件发送的SSD读写测试数据,执行SSD电压、电流及硬盘容量测试,以表格及曲线形式显示实时数据,并记录至数据库,便于查询、管理,同时还支持数据导入导出功能。其主体界面主要包括实时视图和历史视图,实时视图显示测试数据及曲线,历史视图包括筛选条件和过滤后的数据列表。Access数据库用于保存SSD测试数据。

试验系统软件先基于VS对专业SSD测试软件Iometer-1.1.0版本进行改版,将实时获取的SSD读写测试数据放至共享内存,再由基于QT5.8开发的SSDTS软件进行读取。总体架构如图5所示。

图5 试验系统软件总体架构Fig.5 Overall software architect for the test system

软件可设置硬盘工作组、试验策略;实时监测各SATA接口参数,包括电压、电流、读写速度以及SSD容量等;实现数据实时记录、分析、图形化显示。SSD各参数测试流程分别见图6~图8。

图6 电压、电流测试流程Fig.6 Flow chart of voltage and current test

图7 读写速度测试流程图Fig.7 Flow chart of Read/Write speed test

图8 磁盘容量测试流程Fig.8 Flow chart of disk capacity test

4 结束语

本文基于SSD的故障和空间环境效应分析,从现有的地面模拟试验技术出发,分析了芯片测试试验须包含的环境效应,提出了SSD空间环境地面模拟试验方法,设计了SSD空间环境效应试验系统,为研究SSD的空间环境可靠性提供了支持,为分析SSD性能特性及其变化规律、建立空间环境加速退化模型、研究加速退化试验评估方法、探索商用SSD的空间应用可行性奠定了基础。

猜你喜欢
电源可靠性芯片
芯片会议
基于AK-IS法的航空齿轮泵滑动轴承可靠性分析
某重卡线束磨损失效分析与可靠性提升
讨论如何提高建筑电气设计的可靠性和经济性
人体微芯片
医疗器械可靠性研究现状与发展趋势
关于射频前端芯片研发与管理模式的思考
Cool Invention炫酷发明
等效电源法的应用
新电源