民间历史文献知识图谱构建
——以徽州文书为例*

2022-12-17 07:49陈海玉钟起兵

图书馆论坛 2022年11期

陈海玉，王聪，陈雨，钟起兵，周婧

0 前言

民间历史文献是馆藏地方特色资源，反映了某一区域政治经济、文化教育、风俗民情、生产活动等社会各方面的翔实样态，包括契约、账簿、书信、谱牒、手稿、日记等种类，是开展社会史、区域史、民族史研究的“活化石”。大数据时代的馆藏民间文献数字信息与日俱增，由大量异构数据组成的学科知识体系复杂、时空跨度特征明显，信息载体表征多样，隐性信息解读存在难度，难以满足用户多样化、高层次的利用需求。因此，如何深入揭示数据间的关联性，为文本理解、智能搜索、知识服务、决策分析提供支撑，将是今后民间文献研究的重要课题。

知识图谱(Knowledge Graph)开启了新兴技术与传统人文知识的对话，从技术维度拓展了地方民间文本的内容阐释和解读方式，将海量、分散、异构的民间文献知识以直观、可视化的图谱方式展现出来，建立碎片数据间的互联，以智能方式进行组织揭示，增强社会对民间历史文化的理解与认可，促进地方民间文化的传承与推广。

1 国内外研究与实践

近年来，关联语义技术快速发展。融合本体和知识图谱技术对历史文献资源知识进行开发，以多维度文化场域呈现文本立体叙事，拓展文档语料库研究空间，成为图情档领域的研究焦点。

(1)资源本体构建。本体作为知识组织的重要工具，是目前信息资源检索、语义Web应用、异构数据融合等多领域的研究热点。何琳等利用NLP技术，设计先秦典籍本体模型，探讨本体实例自动获取技术，并以《左传》为实验语料加以检验[1]。Vincenzo等以CIDOC-CRM为框架，设计包含戏剧实体、数据结构、描述框架的戏剧文化本体模型[2]。目前，大规模本体自动进化和自学习的研究层次尚浅，个性化知识发现和智能Web服务等方面的应用将成为重要研究方向[3]。

(2)领域知识图谱构建。领域知识图谱融合了关联数据和语义体系特征[4]，在生物医疗、金融电商、教育科研等多个领域逐步得到应用，并拓展至文化机构馆藏文献服务的研发中。彭博基于文物实体关系抽取、命名实体识别等，构建“中国十大传世名画”知识图谱，系统解读文物知识信息[5]。Carriero等依据意大利文化遗产和活动部(MIBAC)的官方总目录及相关编码设计条例，搭建了涵盖1.69亿个三元组及8.2万个文化实体组成的意大利文化遗产知识图谱，可凭借SPARQL查询语言检索资源之间的关联关系[6]。此外，相关研究还包括“大规模存世典籍”“中医古籍”“标准文件”等知识图谱构建，以及信息资源知识问答系统创建等。

(3)多元知识图谱构建方法的融合与创新。由于存在研究对象数据特征个性化及相关开放资源稀缺等情况，学者们为此整合多种知识图谱构建方法，甚至开展针对特定研究对象的创新研究，以解决实际应用中知识组织过程的难题。比如，熊晶等在甲骨学知识图谱构建过程中，融合了基于文献计量学的科学知识图谱(MKD)和基于知识库的知识图谱(KG)两种技术，以解决数据多源异构、开放链接资源稀缺等问题[7]。

2 馆藏民间历史文献资源建设现状

我国各地留存着种类丰富的民间历史文献，其中以清水江文书、徽州文书、黔南州水书、石仓契约、侨批文献、民间家谱族谱等影响最大。它们是研究特定区域社会发展的一手资料，能够从历史和现实角度对当地自然现象、社会现象和群体活动方式、规律等予以全方位、立体式的反映[8]。其资源建设呈现以下特点。

一是数量多，分布散。我国民间历史文献存世数量巨大，除部分由各地图书馆、档案馆、博物馆、高校和研究机构收藏外，大部分散存于民间社会家庭和个人中。仅就目前系统整理的契约文书而言，数量在1，000万件左右[9]。以徽州文书为例，总量估计100万件以上。其中，中山大学收藏有自明初至新中国成立初期近600年间的徽州民间历史文献近39万件，上海交通大学收藏的徽州文书有近10万件，中国人民大学博物馆有近3万余件的收藏[10]，其他如安徽省档案馆、安徽大学徽学研究中心、黄山博物馆、中国国家博物馆、中国社会科学院历史研究所等机构都有万件以上藏量，美国哈佛燕京图书馆、英国大英图书馆等海外多地也有流布。地域空间的广泛分布形成信息碎片化和信息孤岛局面，不利于民间文献资源的整合规划和共享利用。

二是内容揭示单一，深层描述不足。后现代主义提倡的多维叙事与去中心化理念，推动地方知识与区域文化成为相关领域的研究热点。学者越来越重视将地方性叙事融入中华民族的历史性宏观叙事中，力求将地方的、民间的知识上升为国家层面的普适性经验，亦将民间文献置于更广阔的历史时空中进行研究，展现出相对清晰完整的地方社会历史脉络。民间历史文献积淀了一地多元社会的历史文化，具有较强的地域性、综合性和真实性。然而，传统有限的信息呈现和单一的文本解读方式，忽视了民间文献在历史时空、社会结构、文化生活、人群关系等层面的有机联系，不能形成立体交叉的知识体系，成为民间历史文献研究的窠臼，其研究视角与方法亟须突破创新。

三是数据库建设较有成效，但知识组织缺乏深度。近年在数据库建设上，保护和传承民间文献资源备受重视。有关徽州文书的数据库，已建成徽州文书书目数据库、徽州文书特色文献数据库、徽州民间历史文献数据库、徽州文书数据库等多个；针对清水江文书，已开展数字化整理与著录；其他类民间文献的特色库、专题库也逐步在建。总之，民间历史文献的资源形态由“物理态”向“数字态”和“数据态”转化，数据库建设成为发展趋势。现有的数据库主要采用传统目录学的整理方法建库，提供文献目录、图像或全文文本，也逐步开展基于数字人文的数据库体系与功能设计，但元数据著录标准缺乏统一，知识聚类、文本挖掘和语义关联较少，在展现文献蕴含的完整信息方面还有很大提升空间[11]。未来民间历史文献数据库的发展，将夯实针对某类民间文献的本体库，提供更精细化的知识分析服务[12]。

3 民间历史文献知识图谱构建流程设计

民间历史文献知识图谱的逻辑框架可概括为概念模式层和实体数据层。概念模式层涉及本体模型的构建，即以系统化的方式梳理元素所描述的“类”，定义“类”与“类”之间的关系，以“属性”明确表达这些关系，进而形成立体化模型。实体数据层则完成知识图谱的构建，通过深层数据间的关系，将离散、分布存储的“单库”民间历史文献转化成基于“逻辑链条”关系的关联数据，其本质是以RDF三元组形式表征知识结构，通过知识抽取完成概念模式层的实例化呈现[13]。基于此，本文将民间历史文献知识图谱构建在结构上划分为前期的数据资源层、概念模式层、实体数据层以及后期的知识应用层，内容涵盖数据采集处理、知识表示、知识抽取、知识融合、知识推理等方面(见图1)。

图1 民间历史文献知识图谱构建流程

首先，数据获取整合是知识图谱构建的基础和实体数据的来源保障。大量离散且结构各异的民间历史文献需要完成“量”的整合，即由计算机可阅读的数据集转型整合为相应的计算机可理解的数据集。一方面，将散存于档案馆、图书馆、高校等文化机构或民间的历史文献作为主要数据源；另一方面，针对异构文献资源的数据整合，需分析目标数据的特征，利用OCR、NLP等技术将半结构化和非结构化的文献资源进行结构化、数据化调整及修正，并储存于基础数据库中以备后续使用。

其次，民间历史文献本体构建是知识图谱构建的核心。获取及整合后的数据需完成“态”的转变，即将基础数据资源转换为数字化实体标注资源，并完成实体集所蕴含概念、属性的界定。对此，本研究考虑复用相关领域本体，设计民间历史文献专题资源本体模型。将关联的民间历史文献资源列为顶层概念，向下扩展文献主题类型(如契约、家谱、诉讼等)、区域、年代等二级概念类，并依据一定标准细分相应子类。同时，进行各概念类的属性标注，如添加某地契文书的事主、交易金额、交易时间等信息，形成民间历史文献实体概念数据集，完成概念模式层的搭建。

最后，完成民间历史文献知识抽取、知识匹配融合与知识关联存储，生成民间历史文献知识图谱。其一，知识抽取需要在专题文献资源库中完成文本实体和关系的提取，实现实体间语义链接。其二，知识匹配融合旨在将本体模型中的RDF数据导入并匹配到知识图谱三元组数据集中，对于内容重复、关联不明的文献数据在统一的框架标准下进行整合、消歧处理。其三，通过知识节点关联，将相互影响的知识数据组合成可供系统查考的知识网络，揭示知识的深层链接，实现资源“质”和“链”的知识化转型，并通过“逻辑链式”的关联数据应用实现知识的可视化查询等。

4 徽州文书知识图谱构建与应用

4.1 徽州文书资源数据获取及处理

(1)数据获取。本研究的数据资源主要来源于图书馆、档案馆等文献机构收藏或建成的徽州文书档案汇编、徽州文书数据库、地方历史文献数据库，出版物《徽州文书》(刘伯山整理，收录有“伯山书屋”藏黟县文书十户和祁门博物馆藏祁门文书五户)、《徽州千年契约文书》(王钰欣、周绍泉主编；分宋元明及清民国两编，共四十卷)、《中国徽州文书(民国编)》(黄山学院整理，共十卷)，以及广西师范大学设计开发的“徽州文书数据库”和上海交通大学构建的“地方历史文献数据库”的相关文献内容。同时，参考《徽州文书类目》(中国社会科学院历史研究所主编)、《徽州文化全书》以及徽州地方志等相关权威资料，确保徽州文书本体模型构建中核心概念实体添加的准确性与全面性。

(2)数据处理。徽州文书数据库资源多以图像形式呈现，以非结构化数据类型为主，经OCR文字识别后转换成文本数据并以二维表形式存储，为后续本体建模及知识存储所依据的资源描述框架构建统一的数据格式。由于徽州文书中的文字多由民间人士手写而成，文书中混掺的异俗体字、古文字及通假字等，会影响数据获取的精确度，需将转换后的文本数据进行专家校核，提高文本数据的准确性，待后续知识组织使用。其中，歙县三十七都吴氏文书内容的提取存储见图2。

图2 徽州文书基础数据提取存储示例

4.2 徽州文书资源本体构建

本体模型的语义组织与描述功能，可梳理徽州文书中复杂的类别关系。本研究选择易用性强、操作简便的Protégé工具构建徽州文书本体模型，同时借鉴斯坦福大学研究院开发的本体七步构建法，结合徽州文书历史文献特点，将本体模型构建过程分为核心要素分类与关联属性设置两个阶段。

(1)核心概念要素分类。为实现徽州文书内容解构与要素重组，需将文书内容涉及的本体概念进行界定。一方面，参考复用国内外通用本体中对资源类及属性的描述，如中文开放知识图谱网站(http：//www.openkg.cn/)、上海图书馆开放数据平台(http：//data.library.sh.cn/index)等发布的本体基础数据，通过检索获取已有定义，降低概念界定的不规范性与多义性。另一方面，围绕徽州文书内容特征，分析自定义的关键要素，实现对文书核心类及属性的划分。参考上海交通大学关于中国地方历史文献的主题分类法，将徽州民间文书划分为契约、账本、赋役、行政、诉讼、信函、日用类书与工具书、家礼、宗教、戏剧10个大类，其中以契约文书为大宗。由此，以徽州契约文书为例，将其核心类概念设为类型(Type)、主题(Theme)、题目(Title)、事主(Person)、时间(Time)、标的(SubjectMatter)、金额(Amount)、地点(Place)8种。为使核心要素与文书内容建立具体的对应与联系，需要对设立的核心类概念进一步细分二级类目(见表1)，完善文书内容关键语义要素体系。徽州文书本体核心概念要素确定后，将类别体系输入Protégé中，逐步建立徽州文书本体模型。

表1 徽州契约文书本体核心概念要素分类概要

(2)属性添加与语义约束。完成徽州文书本体概念类的界定后，对各概念类添加所属属性，包括对象属性(ObjectProperty)与数据属性(DataProperty)。对象属性描述类与类之间的关系，其定义域和值域都是类；数据属性表示本体类的数据类型，其定义域是类，值域是具体的数据类型[14]。以徽州文书中的“契约文书”为例，本体类的属性描述主要围绕文献类型、内容主题、涉及人物等关键类。对象属性包括发现时间(DiscoveryTime)、涉及事主(Person)、发现地(Found In)、属于(BelongTo)、包括(Include)等；数据属性根据已采集的徽州契(约)文书的实际情况，设置题名(Contract_Title)、主题(Contract_Theme)、尺寸(Contract_Size)、姓名(Person_Name)、年份(Year)等。在Protégé软件中，对ObjectProperties和DataProperties工作区分别执行属性添加操作(见图3)，并对所添加的对象属性与数据属性设置语义范围，即定义各自的值域与定义域(见表2)。此外，还需对徽州文书本体概念属性设置语义范围约束，以增强本体建模结果的易用性与再操作性。

表2 属性语义约束示例

图3 对象属性与数据属性添加

标注徽州文书资源本体概念体系建设及相关属性后，统一语义规范，将文书内容所涉及的地名、时间、事主、题名、主题等实体添加到本体模型中，完成徽州文书资源本体的构建。徽州文书(HuizhouDocuments)资源实体结构的关联展示如图4所示，其中的契约文书(Contract Documents)标签的下一级节点包括散件契约、抄契簿、合同、收据、分家书5种类型。徽州文书本体模型的构建实现其资源体系结构化、系统化和可视化，为后续知识组织与内容图谱化建设提供基础资源框架，也可用于文书资源内容的查找与知识逻辑的梳理。

图4 徽州文书本体模型：ContractDocuments-Type示例

4.3 徽州文书知识图谱生成

(1)知识抽取与融合。知识抽取是将处理后存储于徽州文书知识库中的数据通过实体抽取、属性抽取及关系抽取，统一为RDF数据模型所规范的资源描述模式，即S-P-O三元组形式，本研究将其表示为“实体-属性-属性值”或“实体-关系-实体”。徽州契约文书的体例程式相对固定，文字表述具有规律性，所需抽取的信息前后具有固定的前置词或后置词。例如，“文书主题”前常用“立”字出现于第一行，“交易金额”前通常有“价”一类的前置词，“第一事主”“中见人”等实体则是置于文末的落款处，有“立契人”“中见人”等明显标志词。基于此，徽州文书知识抽取工作就是对徽州文书资源进行规范化语义标注的过程，即设置待抽取对象实体属性项的触发标注词及分句规则，组建面向徽州文书资源价值对象的基础知识库(图5)。具体抽取中采取词典标引法，参考北京文献服务处的汉语自动切词标引系统及中国科学技术信息研究所的《汉语主题词表》等资源，构建徽州文书资源关键词典，经算法匹配识别，抽取文献资源实体的标注数据。依据徽州文书本体模型中的实体概念体系，抽取相应主题、时间、区域、事主、金额等信息的示例见图6。

图5 徽州文书知识抽取方法

图6 徽州文书知识抽取示例

多源异构的徽州文书资源数据经过知识抽取后所形成的数据集，往往存在表达冗余和语义歧义问题，包括图文信息、本体模型的RDF数据以及知识库文本信息的相同实体表达等，需要运用知识融合技术进行对比补充，完成信息整合。本研究中主要涉及针对同一概念的实体指向交叉情况，需要梳理并统一资源实体的多个指称项，完善实体表达。采取实体分组(Mention Pair)对比方法，按句段实体标注顺序，以两个实体描述为组依次配对并比较对象间的共指关系，将指代相同项合并为一个实体标注对象(如图7所示)。例如，《清光绪二年十二月胡祥春立洗业搬移屋约》与《清光绪二年腊月胡祥春立房屋找价并徙业屋约》两份文书中“腊月”“十二月”同指“农历十二月”，于是将“清光绪二年十二月”与“清光绪二年腊月”统一规范成“朝代-年号-数字月份”的形式，即“清光绪二年十二月”。此外，由于古代人物的名、字、号等称谓繁多，出现了同人异名的情况，如“徽商-程希辕”又字“颖芝”，其子“程朴生”又字“立泰”，不同的称谓指向同一人物。对此类同人异名情况，本研究以人物的“姓+名”作为统一标注，达到共指消解的目的，并通过“姓”与“名”展现同一家族下的谱系关系。知识融合将不同来源、不同文件数据中的同一实体的不同表达进行融合，解决冗余数据问题，增强资源合并的有效性，从而提高徽州文书知识图谱的质量。

图7 徽州文书资源数据共指消解流程

(2)知识存储与展示。徽州文书知识存储以图存储模式中的图数据库为主，其图数据模型主体包括节点、边、节点属性和边属性，明确列出数据节点之间的依赖关系。以Neo4j图数据库为例，资源数据的存储集中在节点及边的构建上，即添加资源实体及各资源实体间的关系，旨在便捷高效地搜寻不易挖掘的复杂结构数据节点。

徽州文书资源本体模型与徽州文书文本信息库经过知识融合，形成徽州文书关联数据资源。在徽州文书本体模型构建的基础上，将经过实体抽取并通过质量评估的徽州文书结构化数据导入Neo4j图数据库中，实现徽州文书知识资源的可视化查询与访问。表3为Neo4j中设置的徽州文书部分实体节点标签与关系语句，用于添加及检索图数据库中的徽州文书知识资源。数据导入后，在Neo4j图数据库中，使用Cypher查询语言(MATCH(n)RETURN(n))检索徽州文书知识图谱节点及关联关系，输出界面如图8所示。其中，共有实体节点549个，关系数量1，072个；通过进一步访问，可查询相关文书节点的详细信息及其与其他节点的关联情况。

图8 徽州文书知识图谱检索界面

表3 徽州文书知识图谱节点标签与关系语句示例

4.4 徽州文书知识图谱关联查询与分析

徽州文书知识图谱的主要功能在于跨越时间(年代)与空间(地域)的鸿沟，关联检索到同一宗族分散、零碎的文书，以展现徽州文书的归户特性。同一宗族的文书无论种类多少、数量多寡、时间跨度多长，皆能实现整体关联查询，并通过图谱形式得以可视化展示。以归户于“安徽省徽州府婺源县清华十八都胡氏”文契为例，根据查询返还的图谱结果(见图9)，与“安徽省徽州府婺源县清华十八都胡氏”这一节点相关联的文书有《乾隆三十年胡阿洪立自情愿断骨出卖山契》《咸丰二年启信等立自情愿断骨绝卖基地契》等等。此外，可以对查询结果做延伸与拓展发现，进一步展示不同文书下的交易事主、时间、金额、标的及土地名称等，以及不同文书各实体之间存在的关联情况。

图9 “安徽省徽州府婺源县清华十八都胡氏”节点关联图谱

不同类型的实体可通过颜色差异加以区分，用户可根据查询需要，进一步提取并放大某个或多个实体。例如，针对某个事主所关联土地的相关文书信息，分析该土地的流转情况。徽州土地交易文契的体例相对固定，为明确交易双方的权益，减少土地的权利纠纷，交易文契中会明确说明交易对象的标的、名称和编号。根据这些属性标注，土地的辨识性和唯一性可以得到保证。比如，查询某一土地(即交易对象)，能够关联检索到该土地相关的原契、尾契、税票等文书凭证以及该块土地产权的转移、交换、买卖等交易信息。如图10所示，“婺源县清华十八都”名为“上湖坵”的一块“田皮”曾于“咸丰九年”即“公元1859”年经“戴昭还”之手买入并卖出，其立契人、受业人、中见人及交易金额等信息也一目了然。

图10 “上湖坵-田皮”交易流转图谱

此外，可对多个实体通过路径关联延伸加以推导，分析各实体间的内在联系。如图11所示，获取不同文契中“第一事主”与“中间人”之间的关联关系，可以发现几乎所有徽州民间交易的“中见人”并非是无关人员，而主要与“第一事主”(即立契人)存在直接或间接联系，如兄弟、叔侄、侄孙、族亲等亲缘关系。归纳可知，徽州民间交易文契中的“事主”多选择自己的亲属、族人等关系较近者作为“中见人”，以确保契约的可靠性。

图11 “第一事主”与“中见人”关系可视化展示

5 结语

知识图谱改变了知识工程“自上而下”的知识获取模式，凭借其高效的语义处理和关联分析功能，突破传统文献信息壁垒，对民间历史文献知识的增值及其知识检索服务的创新等具有重要现实意义。

本研究中徽州文书知识图谱的资源本体建设主要由领域专家人工添加与校核，各数据要素主要取材于徽州文书数据库与徽州文书档案汇编资料；同时，借助图谱开发工具并结合徽州文书基础文本数据库建立起高度细化的知识关联节点，并将徽州文书知识资源存储于Neo4j图数据库中，形成完整的徽州文书知识图谱。由于徽州文书图文数据库与相关文献资料所含信息体量庞大，涉及的非结构化数据提取任务艰巨，单由人工校核显得力不从心。因此，后继研究需积极借助计算机处理技术，形成领域专家定向检验、计算机批量提取的文献知识实体标记体系。此外，徽州文书知识图谱的研究深度与广度仍有待进一步探索，可尝试结合其他数字人文技术(如文本挖掘、GIS)，拓展徽州文书历史文献研究的技术范畴，为馆藏民间历史文献的深层研究提供一定的借鉴与开发思路。

民间历史文献知识图谱构建——以徽州文书为例*