计算档案学的构建:档案学术机构的参与路径与策略研究

2022-11-23 00:01周文泓陈淑涵黄思诗四川大学公共管理学院
浙江档案 2022年1期
关键词:档案学学术学院

周文泓 陈淑涵 黄思诗/四川大学公共管理学院

计算档案学被视作档案学科融入数字转型的重要发展方向,具有广阔而繁杂的建构空间,在国内外已形成一定规模的探索力量。其中,档案学术机构的高度参与是应对计算档案学建构难度的重要策略。如马里兰大学、伦敦国王学院、英属哥伦比亚大学等高校的信息学院均是计算档案学的重要研究力量,不仅由理论端逐步丰富计算档案学的认知与方法内容,而且成为计算档案学实践中不可或缺的协作主体。这些行动显示了计算档案学由谁建构、如何建构、建构出什么等多方面内容,其中逻辑、策略与经验有待梳理、解析与提炼。在档案学科应用属性显著的背景下,长期以来档案学术机构被倡议应更加参与实践以建构出更具可行性与见解的理论[1],这在计算档案学的情境中也得到体现,如我国同计算档案学相关的电子文件单轨制[2]、档案数据治理[3]等议题也十分关注档案学术机构作为专业方的输出和指导。然而现有研究未能充分说明档案学术机构在构建计算档案学中有着怎样的参与定位和策略。

因而,本文以马里兰大学信息学院为例,明确其是如何参与、引领计算档案学构建,以此提炼档案学术机构的参与要点和关键事项,从而有效理解档案学术机构参与计算档案学构建的方法,以推进计算档案学的系统建构。

1 行动:学术机构参与计算档案学建设的措施概览

马里兰大学信息学院是美国信息科学领域一流的研究学院,以探索大数据背景下计算方法与档案实践的结合为宗旨,以计算档案学为其专攻方向之一[4],通过建立协作组织、开展合作研究、实施教学性实践项目等深入参与计算档案学这门新兴学科的孕育、成型、发展等过程。

1.1 构建研究共同体

一是向内聚集,组建小型共同体。在计算档案学的研究中,马里兰大学信息学院自身作为小型学术研究共同体,以学院下设研究中心和实验室为平台依托、由师生研究团队为共创主力组成。马里兰大学信息学院下有各个专业性质的研究中心和实验室,师生以项目为单位开展计算档案学理论与实践的探索。其中,档案未来中心(Center for Archival Futures,CAFe)致力于用以人为本的方法构建技术层面的系统、流程、机构,明确对未来数字化档案与数据的使用和维护,推动研究人员、学生和行业专家一道开展研究项目、体验式学习、示范项目及其他活动[5]。数字策展创新中心(Digital Curation Innovation Center,以下简称DCIC)则聚焦跨学科项目,探索数字资产的筛选、保存、维护、收集和存档等相关问题,为档案学的数字化研究提供新动力[6]。DCIC同样融合师生参与项目,协助政府机构、学术机构、企业等应对档案和信息管理方面的挑战。

二是向外延伸,构建大型共同体。马里兰大学信息学院以开放包容的心态、共同发展的愿景谋求广泛合作,先后作为主要力量参与构建面向全球的众多大型研究共同体。如2019年,DCIC为促进21世纪计算档案学的发展,与伦敦国王学院数字人文系、马里兰州档案馆和英国国家档案馆共同开启了为期一年的计算档案学国际研究合作网络[7],重点探讨计算方法和工具如何应用于档案问题及如何将“计算思维”与“档案思维”相结合。又如马里兰大学信息学院教授Richard Marciano等研究人员为进一步扩展计算档案学合作,联合构建了高级信息协会[8](Advanced Information Collaboratory,以下简称AIC)。AIC是一个由遍布五大洲的档案管理人员组成的国际性合作网络,致力于实现计算与档案的多学科合作、跨领域共享。为谋求计算档案学的跨学科发展与实践进步,AIC于2020年联合发起一项融合人工智能、机器学习和计算档案学的倡议:未来档案与文件管理(Future of Archives and Records Management,FARM)[9],通过研究计算手段应对档案和文件管理面临的机遇与挑战,进而提升研究人员的计算思维与能力。值得一提的是,DCIC已于2020年5月并入AIC[10],一定程度上体现出共同体由内向外的延伸趋势。

1.2 建立实践合作网络

一方面,马里兰大学信息学院的合作关系触及各领域各层面,建立了紧密的合作网络。目前,马里兰大学信息学院已与NARA、美国国家公园管理局(National Park Service,以下简称NPS)、美国国家农业图书馆(National Agricultural Library,NAL)等多家国家机构开展合作项目,帮助其处理馆藏档案材料,促进对文献资源的研究和利用。如,NPS聘请一支由马里兰大学信息学院师生组成的团队处理NPS的官方资源管理记录以及各地的NPS站点所捐献的档案和手稿藏品,促进其对资源的管理和研究[11]。此外,马里兰大学信息学院的实践网络还触及社会各方面。如其与马里兰大学大卫·德里斯凯尔艺术中心协作,众包转录艺术家大卫·德里斯凯尔的文献为其创建数据集[12];与杰拉尔德·马蒂医生合作建立慢性淋巴细胞白血病病例档案社区,并收集与该疾病研究相关的历史资料[13]。

另一方面,合作网络的建立需要基于各方优势形成的跨领域有效协同。在数据资源建设方面,马里兰大学信息学院的数据来源合作方众多。NARA、马里兰州档案馆等图档博机构提供馆藏档案和历史记录,马里兰大学信息学院利用材料开展基于计算思维的、运用计算方法的数字处理,如马里兰大学信息学院与马里兰州档案馆奴隶制遗产项目组达成合作关系,参与数字化马里兰州黑人奴隶制档案,并探寻更精密且人性化的计算方法挖掘黑人奴隶制档案中未被发现的历史与故事[14]。技术开发与应用上,马里兰大学信息学院与伊利诺伊大学美国国家超级计算应用中心(National Center for Supercomputing Applications,NCSA)是稳定的合作伙伴,多项项目均在NCSA技术支持辅助下开展,如美国陆军穿孔卡阅读项目就借助了在NCSA之下开发的数据转换工具Brown Dog提供的网络级API来提取穿孔卡文件中的数据[15]。此外,合作过程中还得到了来自不同领域的视角与专业支持。如,档案馆的数字策展和机器学习实验项目便与罗斯福总统图书馆和博物馆(FDR Library and Museum)的研究人员、工作人员协作开展[16];奴隶制遗产项目的主导团队除图书馆与信息科学硕士生外,还吸纳了IT、历史、艺术史等不同专业背景的研究生,提供多学科视角[17]。

1.3 布局多元的计算档案学项目

基于其科研与教学定位,马里兰大学信息学院将计算档案学建设充分融合于科研教学活动中,开展一系列计算档案学项目。

1.3.1 二战中日裔美国人监禁营地文件的计算处理项目[18][19]。学院教学科研人员带领学生团队对监禁营地文件进行一系列计算处理,包括运用计算语言分析方法检测文件中的个人可识别信息(Personal Identifiable Information,PII)、开发形成姓名登记表、设计受控词汇表实现文件索引卡内“事故”类别的标准化并在此基础上整合重要文件、绘制事件和人物地图、利用图形数据库Neo4j建立事件与人物的关联。

1.3.2 城市重建数据的数字策展项目[20]。在学院师生团队主导下建立大数据平台,保管并数字化北卡罗来纳州阿什维尔市1970年代的“城市重建项目”中的文件,建立用户画像、进行数据建模、结合法律文件的性质重建数据库并设计用户界面,以数字形式重建在“城市重建项目”中因改造而失落的非裔美国人居住社区。

1.3.3 奴隶制遗产系列项目[21][22]。项目由学院师生团队主导开展,对马里兰州档案馆内反映非裔美国人经历的馆藏进行自动化数字转录、提取、转换,实现数据可视化并进行数据分析,以讲述马里兰州奴隶制和非裔美国人的故事。在后续研究中,团队发现当前算法对历史记录的信息提取会产生遗漏,于是进一步探索寻找优化算法的开源计算工具,发现历史记录中“被抹去”的信息。

1.3.4 美国陆军穿孔卡阅读项目[23]。本项目在DCIC平台下开展,基于计算机视觉(Computer Vision)技术,规范传统打卡机数据格式的图像,然后读取编码数据,从而实现用电脑读取来自美国陆军的穿孔卡。

1.3.5 引入计算方法的规模化数字存储库(DRAS-TIC)Fedora研究项目[24]。借助DCIC平台,使用数据分区(Data Partitions)和无状态服务器(Stateless Servers)来扩大Fedora存储库的规模,实现对数字档案的访问。

1.3.6 从总统电子文件中自动提取都柏林核心元数据项目[25]。主要识别白宫新闻办公室分发的文件类型,从中提取都柏林核心元数据,为目标开发提供可用工具。

1.3.7 档案馆的数字策展和机器学习实验项目[26]。从藏于罗斯福总统图书馆与博物馆的摩根索大屠杀收藏项目中提取主题索引元数据,优化检索辅助工具,对档案藏品进行数字策展,创建具有文化意识的机器学习训练模型,由此解锁藏品中难以触及的信息,并改善公众和研究人员的访问体验。

2 教育科研并举的计算档案学构建行动要点解析

2.1 以探索前沿教学实践为载体强化计算档案学试点工作

马里兰大学信息学院将计算档案学这一较具探索性的内容全方位融合于教学之中,将其作为实验性的教学创新模块予以推进。因此,在融合了计算档案学的教学之下,马里兰大学信息学院将计算档案学的探索场景延伸至课堂,学生团队为计算档案科学的研究队伍持续注入活力,计算档案学具体内容等获得连续性输入,产出有效的理论与方法成果。

一是计算档案学全面嵌入档案教学框架,在培养方案中凸显计算思维,推进计算档案学的知识传播、应用与探讨。马里兰大学教育学院David Weintrop教授等人开发出一套应用于数学和科学教育的计算思维分类法[27],包括22项涉及数据、建模、计算问题解决以及计算思维运用的计算思维实践活动,经过实践项目的验证发现与档案学及档案实践存在较强的映射关系。马里兰大学信息学院结合计算思维分类法,将计算思维全面引入档案科学教育,分析现有的档案科学教育大纲,将计算思维框架嵌入与之相应的知识单元中。学院还开设一门课程专门教授如何将计算思维应用于知识领域的研究主题。以计算思维分类法为依托,学院将制定一系列计算思维教学计划[28],并据此完善档案学研究生课程体系,将计算思维融入档案学课程大纲。该教学计划将在学科专业研讨会上推广,介绍给未经计算思维或计算机科学培训的研究生导师,以普及计算档案思维教育。

另一方面,计算档案学的探索过程深度融合课程教学,开展计算档案学的试点性项目,由此产出新的理论与方法成果。在研究生课程核心研究主题的练习和项目环节中,借助DCIC提供的广阔平台及资源,师生得以开展多项实践项目。由信息学院教授指导图书馆与信息研究专业为主的多学科研究生组成iSchool团队,专注于多项涉及计算思维和计算方法的档案实践项目。典型案例包括二战中日裔美国人监禁营地文件的计算处理项目[29],其中iSchool团队运用计算思维解构问题、进行数据收集与处理分析、构建计算模型等。除此之外,DCIC还以共享和传播计算档案学案例研究和教学计划为目标,探索建立计算档案科学教育系统在线存储库[30],记录针对数字档案的实践结果,便于教育工作者和实践者共享和传播计算案例研究和课程计划,建立协作网络相互学习。

2.2 以创新性科研引领计算档案学全面建设

马里兰大学信息学院作为学术机构,强调的是将计算档案学作为前沿性创新学科,发挥其在档案学乃至信息学中的引领建设作用。因而,计算档案学的建设对于马里兰大学而言并非只是一项科学研究,而是从学科角度进行规划与行动。

一是积极应用学术基础和优势,确立计算档案学建设的领先地位,确定计算档案学的建设需求和标准。基于马里兰大学信息学院在计算机科学、信息学、档案学多学科方向发展的传统及其资源优势,计算档案学得以获得前瞻性布局和倡导。2015年,马里兰大学信息学院教授Richard Marciano组建跨学科研究小组,促成计算档案学的诞生[31]。此后,学院在良好的计算档案学学术生态下,广泛利用其学科研究共同体及实践合作网络的丰富研究资源,并受助于各种资金赞助,在计算档案学的研究上逐渐发力。以档案馆的数字策展和机器学习实验项目为例[32],其在“博物馆和图书馆服务研究所(IMLS)劳拉·布什21世纪图书馆员计划(2020—2022)——试行在线合作网络,将计算思维融入图书馆和档案教育与实践”的资金支持下,与罗斯福总统图书馆和博物馆达成协作,并利用数字策展和机器学习等计算手段实现摩根索大屠杀档案的有效访问。

二是强化相关实践,面向现实需求设置多元的计算档案学研究项目,面向文件档案管理的各个方面、环节等构建丰富的计算档案学内容。具体而言,其项目主题一方面涵盖历史、文化等宏大议题下的微观项目,如为数字化重建在“城市重建项目”[33]中因改造而消失的非裔美国人居住社区,项目团队相继建立大数据平台来归档、数字化社区重建文件,并进行用户画像建立、数据建模、数据库及用户界面设计等流程,再造1970年代的北卡罗来纳州阿什维尔市。另一方面又触及政府及其他机构的具体业务流程,如规模化数字存储库Fedora研究项目[34]的研究团队为解决目前实践中存在的数据扩张导致的容量不足问题,以分布式技术、开源软件、实践指南等促进与Fedora兼容的关联数据存储库有效管理,满足日益增长的存储需求的同时延伸至更广泛的计算档案实践项目。如后续将与NPS合作,为黑人妇女历史国家档案馆(National Archives for Black Women's History,NABWH)开发一个原型资料库。

三是强调整体视角,以计算档案学的建设及其成果互通为基础强化共同体乃至学科建设。在学科建设中加强以马里兰大学为主要引领与示范主体的计算档案学研究共同体之间的交流协作,在共建共享中提升这一研究共同体的凝聚力与竞争力,并进一步巩固马里兰大学信息学院在计算档案学领域的领军地位,主要体现为马里兰大学信息学院主导建设的AIC在全球信息领域尤其是计算档案学学科的合作呼吁与实践影响力上。通过共同体的有效建设,计算档案学得以面向文件档案管理的复杂体系,如从主体、对象、内容、方法、手段、流程等方面逐步提升计算档案学理论的丰富程度,促进计算档案学作为一门科学的系统性发展与完善,无论是DCIC对数字资产的筛选、保存、维护、收集和存档及相关问题的探索,还是CAFe致力于用以人为本的方法构建技术层面的系统、流程、机构,或是iSchool团队所建立的广泛科研与实践合作网络,均显示出对计算档案学广阔繁杂建构空间的有力填充。

3 启示:学术机构参与计算档案学的策略

计算思维在我国各学科的建设中已逐步凸显,从宏观的计算社会科学到计算传播学、计算法学等均显示了广阔的构建空间,计算档案学同样被视为学科发展的新方向,得到理论与实践领域专家与学者的倡导[35]。学术机构作为学科建设的中坚力量,同样需要明确计算档案学的构建策略。因而,结合以马里兰大学为代表的国际经验与我国档案学数字转型探索情境,总结并设计出如下策略。

3.1 融合新文科建设目标设定整体行动框架

新文科建设已是档案学发展的重要牵引,新文科所倡导的知识新建、跨学科协同、融入数字技术情境等,更是同计算档案学从背景、目标、任务等方面全面契合。因而,在档案学以新文科为战略导向的背景下,计算档案学在我国的建设,依托以高校为主体的学术机构,在新文科的引领下可从如下方面设定整体的计算档案学构建框架:一是对接新文科的服务属性以确认发展方向,将计算档案学所涉及的科研与教学场景具化至国家与社会的重要发展任务中,如数字中国建设、讲中国故事的数字记忆构建等。二是以知识创造为目标深入我国情境设计本土化的内容体系,积极将我国档案事业数字转型探索成果转化为计算档案学理论与方法的内容资源,并推动其国际化传播以融入计算档案学的全球协同构建。三是由品牌项目深化跨学科探索以确立行动系统,可建立计算档案学建设联盟,打造集聚产学研一体的品牌项目,可以学科交叉融合为方向吸纳并联动跨领域的各方力量,从而在多方协同下产出面向计算档案学构建的具体行动。

3.2 落实以项目为单位三位一体的行动布局

参照马里兰大学的整体行动,我国档案学术机构应立足实际情况,明确计算档案学为发展前沿方向,建立教育、研究、实践三位一体的行动布局:一是实现教学和科研双线并行,创办创新性的教学实验室,师生协同将课堂纳入计算档案学的科研场景,并为学科的持续发展输出具备创新融合思维和丰富实践经验的人才。如档案数据化既可作为科研的热点议题,亦可作为课堂的创新项目,由此产出相应的可用于实践验证的理论、方法及方案。二是理论与实践应充分关联对接,将计算档案学的探索落于实践项目之中。依据《“十四五”全国档案事业发展规划》[36],学术机构应积极建设档案智库,积极发现问题与要求以服务国家各方所需。因而,计算档案学的构建同样要落于实践中:在战略层匹配国家治理体系与治理能力现代化、数字中国建设等,这既是计算档案学的发展情境,更赋予了计算档案学在我国的社会、文化、技术、管理特质;在行动内容层积极服务于档案事业自身的重点发展任务,如档案信息化建设中的档案数据化、智能档案管理等亦是计算档案学建设的有效场景。

3.3 强化网络化协同行动主体建设

明确计算档案学的构建需行动主体的共同努力,学术机构应建立广泛的合作网络并逐渐扩展延伸。基于此,我国学术机构可从以下几个方面把握:一是以学术机构自身为基点,点状设立多形态的计算档案学实验室、研究中心,并广泛联系、吸纳国内国际相关学科的研究主体力量加入,集成计算档案学研究资源与力量。二是进一步以校际合作为支撑,建立计算档案学研究中心、计算档案学学术委员会等。在广泛的合作网络与行动倡议的基础上,加强校际交换交流、引导师生共同探索计算档案学的基本概念、课程体系、学科发展等问题。法学领域由清华大学、四川大学等6所高校法学院共同成立的计算法学联盟,建构融合信息技术与法律交叉研究、人才培养模式、国际合作交流的学术平台[37]可提供良好借鉴。三是强调多方协作,联动实践形成共同推进计算档案学的社会共同体。我国档案学术机构从建立到发展已有良好的同实践方协作的传统,计算档案学的建设更是需要学术机构深入同档案机构、档案企业、第三方机构的有效合作,可涉及实践方案设计、产品研发等。

3.4 学科整体视角下融合档案事业要点的行动内容设计

我国档案学术机构同样应深入解析档案工作“为党管档、为国守史、为民服务”的职责,并协同《“十四五”全国档案事业发展规划》战略布局、积极响应“三个体系”建设,由此确定构建计算档案学的具体内容。如,充分识别数字转型趋势及其要求,将如下方面确定为计算档案学的探索主题:以电子文件单轨制为依托的电子文件管理、高质量的档案数据库以及国家档案数据平台建设、以档案信息资源为基础的数字人文与数字产品开发、应用大数据以及人工智能等新技术的档案管理创新、数字档案馆乃至智慧档案馆建设。

猜你喜欢
档案学学术学院
生态学术名家薛富兴
Chinese Traditional Medicine
海盗学院(12)
海盗学院(7)
档案学学科入门指导课程专题设计探讨
西行学院
学术出版创新:基于大数据的知识服务
中国档案学研究
学术批评语境下档案学理论研究的批评
档案学会行政化表现及利弊问题探讨