论登记备份数据的备份与管理

2023-07-22 02:48王银炎浙江省档案馆灾备中心
浙江档案 2023年6期
关键词:磁带备份载体

王银炎/浙江省档案馆灾备中心

党的二十大报告指出,“以新安全格局保障新发展格局”,安全在发展中的作用愈发重要,随着信息化建设的快速发展,电子文件规范管理与档案信息安全已越来越受到各级党委和政府的重视,特别是政府部门电子数据在不断加速增长,服务经济社会的作用越来越大,加强电子数据的安全备份,对于确保政务服务系统安全稳定,保障政务服务工作有效开展具有重要的现实意义。当前档案工作以“三个走向”为根本遵循,充分发挥档案工作在“两个先行”伟大征程中的基础性支撑作用,切实把档案保管好、利用好,记录好、留存好,更好为党和国家工作大局、为人民群众服务。

以浙江省档案馆为例,2013—2022年浙江省电子政务数据灾难备份中心(以下简称“灾备中心”)接收备份的单位数量已超过150家,数据量超过150TB,其中数字化成果数据占80%,电子公文占4%,业务数据占16%,2018—2022年因各种原因导致的备份单位原始数据未保存或缺失的单位有9家,通过灾备中心的备份数据恢复数据量超过8TB(以数字化成果数据和电子公文数据为主)。灾备中心是开展档案安全工作重要载体,为新形势下电子档案数据保管工作提供了安全保障,随着全省登记备份工作的持续推进,电子档案数据的不断产生,档案登记备份工作的重要性也逐步体现出来,但随之而来的问题也渐渐浮现。其中登记备份数据的备份和管理问题已直接影响当前各地档案馆登记备份工作的开展。本文结合笔者工作实际,就如何对档案登记备份数据(以下简称登记备份数据)的备份和管理谈几点看法及建议。

1 登记备份与数据保管流程

1.1 登记备份流程

以浙江省档案馆登记备份流程为例,各备份单位根据备份通知登录档案登记管理系统,将本单位的档案管理情况进行登记并提交上报。具体流程如图1所示。

图1 登记备份流程

1.2 登记备份数据保存与管理流程

备份数据流程结束后,登备数据接收及保管单位(以下简称备份中心)会将接收到的登备数据进行保存与管理,具体流程如图2所示。

图2 登记备份数据保存与管理流程

备份中心定期将登备数据备份到LTO磁带或光盘(档案存储用蓝光光盘),脱机备份信息记录到登记备份管理系统,磁带或光盘脱机存放到载体管理库房中。每年对存放超过2年的LTO磁带或光盘载体进行抽样检测。备份中心制定登记备份管理制度,通过登记备份管理系统辅助,按照制度保存与管理登备数据,定期进行数据的恢复和可用性测试。通过以上流程,备份中心会源源不断地接收登备数据,数据量会随着时间的推移而不断增加,随之而来的问题也会逐步显露出来。

2 登记备份数据庞大所带来的问题

登记备份工作开展至今已超过十个年头,面对登记备份日渐增大的备份数据量,备份中心碰到的问题:

2.1 扩容问题

备份数据量飞速增加,存储不够用时扩容虽然能达到立竿见影的效果但却只能解决燃眉之急。建设成本与扩容经费投入的持续增加,配套系统和设备的运行维护费用和管理费用也会随之增加,建设和管理成本与经济和社会效益之间的平衡、当前财政信息化经费的缩减、对信息化技术人员素养的要求等都是需要面对的问题。

2.2 数据安全问题

一是数据使用安全,虽然在做备份数据的整理时会将涉密数据和非密数据分离开来,但很多档案数据中都包含各个单位的内部文件数据,有的甚至还有涉密数据遗留混杂在其中。二是数据存储的安全,当前很多业务系统都迁移到了云计算平台上,云平台有其自身的优点,但在数据安全和数据泄露上存在重大隐患。备份数据量越大、数据来源越广泛、敏感信息越多数据安全问题所面临的挑战就越大。

2.3 信息技术人员缺乏问题

档案信息化技术力量本来就薄弱,技术型人才严重不足,档案备份中心工作人员中有很大一部分并非信息化专业人员,大部分备份中心都没有专业的信息化专业技术队伍。尤其是当前很多软硬件平台设备由国产化设备和平台替代后,备份中心的建设、系统管理对人员的信息化技术素养要求更高。就算有了充足的资金和设备,没有高素质的技术人员来建设、管理和维护,备份中心也无法可持续发展。

3 备份机制、方法和管理

寻找一个适合备份中心自身实际情况的平衡点,建立有效的登记备份机制和备份方法,可以考虑几个方面:

3.1 备份方式

当前除了传统的本地应用系统,很多业务系统都迁移到了云计算平台(以下简称云平台)上。本地应用的备份形式有冷备份(离线备份)、热备份(在线备份),云平台则是云快照、云镜像,一些主要针对数据库系统的备份方式如按模式分类有逻辑备份、物理备份,按逻辑分类有全备份、增量备份、差异备份。

冷备份的优点是操作非常便捷的备份方法(只需拷贝文件)、容易归档、容易恢复到某个时间点上、能与归档方法相结合、低度维护和高度安全。缺点是单独使用时,只能提供到“某一时间点上”的恢复。在实时备份的全过程中,数据不能有变动,必须等待备份完成。占用存储空间,只能拷贝到磁带等其他外部存储设备上,备份速度慢。恢复时需要中断业务先导入备份数据,因此恢复速度慢。热备份的优点则是备份速度快、恢复速度快、可以做到全自动接近无缝切换,缺点是维护困难、成本高、不能出错,否则后果严重。云镜像是在云端创建服务器数据副本,主要用于创建容错和冗余服务器计算基础架构。云快照是一种基于时间点的数据拷贝技术,记录某一特定时刻的数据信息并加以保存,其分为物理拷贝和逻辑拷贝。云平台的优点是降低计算机成本、改进的性能、降低资源成本、优化存储、数据可靠性(数据在云中存储是分节点存储存在多副本多位置)、管理的便捷性(一个终端一条网一个账户就可以方便地进行管理),但针对敏感档案数据而言存在几个威胁最大的几个问题:数据丢失与泄露、共享技术漏洞、云平台供应商可靠性不易评估、身份认证问题、透明度问题。云上云下如何选?可以对比以上优缺点,再结合备份中心自身的业务需求来选择。

3.2 数据标签

数据在备份之前需要进行筛选整理,将备份数据格式按备份标准进行统一,再对统一格式后的数据打标签形成标签化的登备数据,这是登记备份环节最重要也是目前登记备份工作中最具挑战性的工作。无论是借助备份工具软件执行自动化备份或归档,还是利用信息化管理系统外加人员的半自动化备份,最终都需要对数据进行管理。做好数据管理,需要对数据分配身份,有了身份后再给每个有身份的数据赋予特定的属性(唯一编号、来源、标题、内容、数据包摘要或时间戳值、容量、格式、时间、关联信息、外部依赖、有效期限、备份方式、分类级别、是否密级等),这就是数据标签。其中有效期限也叫生命周期,在实际登记备份工作中这个属性标签大部分用默认标签(永久或长期),那么这个标签等于无效,起不到作用。备份数据不断进来,备份中心照单全收,只要存储够用就不会去考虑数据清理,到了容量报警时再去补救,发现这个数据也不敢删,那个数据也不敢删,清理数据时没人愿意签字画押,这样重复和无用的数据就会越积越多。备份中心可以给出备份数据有效期限定义的标准和方法,如何定义登备数据的生命周期、制定和执行数据过期策略、重复数据删除等,这些工作都需要依赖于登备数据标签。有了完善详细的登备数据标签才能方便且高效地管理登备数据,做好登备数据生命周期管理才能有效降低备份中心的数据存储及数据管理压力。

3.3 备份计划和策略制定

执行备份操作前需要先制定备份计划,例如使用频率极低的数字化成果以及敏感档案数据的备份可以选择在本地先归档再进行备份,因其存储和管理更安全。对业务连续性要求高、数据变化量大的核心业务系统做好热备份(至少是双机热备),再云平台上的系统则可以利用云平台做好快照和镜像,碰到事故发生时可以在更短时间内恢复业务,缩短业务的中断时间。除此外还需做好数据的容灾备份,虽然部分档案数据使用频率不高,有的甚至保存几年也不会用到,但其数据的档案属性仍然存在,这些数据可以考虑先对其进行归档再对归档数据进行脱机离线备份(磁带或光盘)来作为防灾级别的备份和长期保存。

备份策略制定可以参考已有的备份管理制度执行。一般备份策略中先确定备份模式再确定备份周期和备份执行时间,还需要依赖专业的备份软件和信息系统来管理备份计划、备份任务、备份执行情况、备份数据的生命周期、定期巡检、脱机载体、脱机备份频次、载体检测或抽检等。备份模式可以分为完全备份、增量备份、差异备份,这几种模式各自的特点:完全备份最慢但恢复最快、重复文件最多需要的空间也最多。增量备份最快但恢复最慢、备份使用空间最少。差异备份速度和备份容量介于完全和增量备份之间,但有也会产生大量重复文件。

登记备份的备份周期大多为周、月、季度、半年、一年,主要结合备份中心自身的情况、备份要求、经济、技术和人力等情况综合考虑。一般全备份周期在半年或一年一次的频率,增量备份则时间相对较短,可以选择周或月度,差异备份则介于增量备和全备之间。完全备份操作简单、恢复也方便快捷、简单,缺点是浪费空间。

备份不一定都要采取高等级备份方式,在选择备份方式时需要明确重心进行取舍和区别,要根据各备份中心实际情况制定计划。

3.4 备份工具和归档软件

更具数据的应用场景来选择合适的软件工具进行备份,例如对业务连续性要求高、数据变动频繁的业务系统中的数据库、临时表单附件等可以采用数据备份工具;对于变动频率低的非结构化数据文件,以小文件为主而文件数量庞大的档案数据文件,如果直接使用备份软件进行备份实际应用中效率和管理上效果都不理想,可以使用归档软件进行归档(形成归档包、iso格式等)后再进行备份。文件归档工具选择范围比较广,考虑维护和兼容性为主,可以选择支持标准格式和协议的归档软件。备份工具对备份效率、可靠性、恢复速度要求比较高,但备份软件都厂商有自己的文件格式兼容性低一般不对外开放,比如AnyBackup(爱数,国产化备份系统,支持国产化系统平台)、VERITASNETBACKUP(简称NBU,跨平台、功能强大,但价格昂贵、维护成本高、非国产,不支持国产化系统)、CommVault(康孚,目前只支持Windows平台,漏洞多容易受到攻击,功能有限,非国产,不支持国产化系统)等等。利用备份工具可以对备份数据进行系统化管理,备份的自动化运行,方便备份策略的定制等便利。通过备份工具备份的数据与备份工具的依赖性很强,例如脱离备份系统后数据能否正常恢复以及恢复需要的代价,备份系统本身的备份及安全问题,系统迭代升级后对老版本系统和数据的兼容支持情况及还原能力等。避免出现时间过去十几年后当初的备份数据无法还原或无法提取的状况。

3.5 脱机存储载体

对数据进行定期脱机备份时需要考虑脱机备份载体的选择,目前长期存放冷数据主要使用LTO磁带、光盘存储(档案级蓝光光盘)也逐步开始使用。对脱机载体需要按其载体特点和温湿度要求存放专门的载体存放库中,并定期对载体进行状态检查,例如LTO磁带一般需要2年至少检查一次。需要根据载体读取设备的更新换代对载体进行更新或重新备份,以防止使用备份数据时无可用的读取设备而无法取出数据,例如LTO类型磁带一般只向下兼容两代,两代中最近的一代为读写兼容,之后为只读兼容,速度仍然按照各个类型的速度,例如LTO8可以读写LTO7速度为300M/S,可以只读LTO6的磁带速度为160M/S,但已经无法读取LTO5及之前的磁带。目前LTO9的单盘非压缩容量为18TB,磁带读写速度为400MB/s。光盘存储的读写效率目前未能超越磁带读写,单盘存储容量较低(目前主流是100到300GB之间),但光盘对载体的保存环境要求比磁带宽松,目前国产化产品也有可选余地。

除了备份工具外还需建议使用备份管理系统辅助备份工作的管理,例如一些审批和交接单据管理、备份数据属性管理、载体存放信息管理、定期检查或抽检情况、数据调取及利用管理等。

4 登备数据的可用性验证

数据备份进了存储、卷了磁带、存放到异地、进入了管理系统,但数据备份工作还没有全部完成。数据备份的最后一项工作就是数据的可用性验证。数据的可用性可以从数据的一致性、准确性、完整性、时效性及实体同一性五个方面进行验证。登备数据的可用性验证可以通过:定期检测载体、定期检测数据包可用性、抽样选取备份数据开展备份数据的定期恢复演练三种主要方式来保障数据的可用性。载体检测和数据包检测是通过技术手段,可以利用工具软件达到目的。恢复演练是实战方式的验证,可靠性和信任度更高。

猜你喜欢
磁带备份载体
“备份”25年:邓清明圆梦
创新举措强载体 为侨服务加速跑
坚持以活动为载体有效拓展港澳台海外统战工作
创建vSphere 备份任务
老磁带真的值钱吗
旧瓶装新酒天宫二号从备份变实验室
创意磁带
TiO_2包覆Al_2O_3载体的制备及表征
出版原图数据库迁移与备份恢复
创新德育教育载体