多源自媒体资源知识组织模型构建研究

2024-04-14 13:33李强刘思得张镇波鲍玉来
现代情报 2024年4期
关键词:元数据

李强 刘思得 张镇波 鲍玉来

关键词:语义关联:多源自媒体资源:知识组织:元数据

多源自媒体资源包含了大量的数字内容,例如博客、微博、微信公众号、短视频等,这些内容能够丰富图书馆的馆藏,为用户提供多元化的信息资源。多源自媒体资源的数量庞大,用户往往无法通过传统的检索方式找到所需的信息。构建多源自媒体资源的知识组织模型,可以通过对多源自媒体资源进行分类、标注等方式,提高用户获取信息的效率。多源自媒体资源的特点是用户可以自由发布和共享自己的知识和经验。通过构建多源自媒体资源的知识组织模型,可以促进用户之间的知识交流与分享,打破传统知识传播的壁垒。多源自媒体资源中蕴含了大量的学术研究成果和专业知识,构建多源自媒体资源的知识组织模型可以将这些资源整合起来,为学术研究和学习提供支持。多源自媒体资源的知识组织模型能够将用户的需求与资源进行匹配,提供个性化的推荐和服务,从而提升用户的使用体验。

1多源自媒体资源知识组织目标与原则

多源自媒体是指来自多个不同平台和渠道的多源自媒体资源。多源自媒体,也称为个人媒体或公民媒体,是指个人或团体通过互联网等数字化技术手段发布、传播信息的新型媒体形式。在当前的信息时代,多源自媒体已成为人们获取信息、表达观点的重要途径。

1.1多源自媒体的特点

多源自媒体的特点主要体现在以下几个方面:

1)多样性:多源自媒体包括各种类型的网络平台,如社交媒体(微博、微信)、短视频平台(抖音、快手)、问答社区(知乎)、直播平台(斗鱼、虎牙)等。

2)开放性:多源自媒体门槛低,任何人都可以成为信息的生产者和传播者,内容涵盖广泛,从生活琐事到专业知识,无所不包。

3)实时性:多源自媒体信息发布迅速,能够实时反映社会热点事件和个人即时感受。

4)互动性:多源自媒体具有强烈的社交属性,用户之间可以进行评论、点赞、分享等多种形式的互动。

5)多元化:多源自媒体内容多样,不仅有文字,还有图片、音频、视频等多种形式。

因此,多源自媒体的研究对于了解公众意见、挖掘社会热点、提升信息服务质量等方面具有重要意义。同时,由于多源自媒体资源的多源异构特点,如阿有效地组织和管理这些资源也是一项重要的挑战。

1.2多源自媒体资源知识组织目标

多源自媒体资源知识组织的目标是发掘馆藏与多源自媒体资源在知识上的联系,实现多源自媒体资源的有序化组织和高效利用,并为用户进行信息检索提供便利,减少其在精细化检索上耗费的时间,具体内容如下:

1)推动多源自媒体资源有序化组织。知识组织被定义为揭示知识单元,挖掘知识关联的过程或行为,最为快捷地为用户提供有效知识或信息。通过引入知识元和语义关联等方法,将较为杂乱的多源自媒体资源信息整理为结构化的有序知识来源,挖掘内部知识结构和特征规律,方便图书馆的引用。

2)实现馆藏到多源自媒体资源的一对多映射。通过对多源自媒体资源和虚拟馆藏资源进行知识元瞄述、抽取、关联和应用,采用深度学习、主题建模等多种技术方法对知识内容单元进行序化重组,旨在通过寻找馆藏与多源自媒体资源在知识结构上的映射关系,使图书馆实现由多源自媒体资源到馆藏的利用。

1.3多源自媒体资源知识组织原则

对多源自媒体资源进行知识组织需要遵循一定的原则。①科学性原则,科学性原则是科学研究的首要原则,也是知识组织的首要原则;②有序性原则,当今时代信息量的爆发式增长,海量信息和虚假信息导致了检索和甄别困难,因此,实现知识的有序化是知识组织工作的重要目标之一:③实用性原则,实用性原则发源于实用主义,主要体现为强调行动和效果,将经验和实践归结为行动的效果,将知识归结为行动的工具,将真理归结为有用、效用或行动的成功,尽力立足于事实,脚踏实地地进行科学研究;④多维性原则,多维性原则指要从多个维度进行多源自媒体资源的知识组织,其一指从语义方面对馆藏资源进行知识元分析:其二是对多源自媒体资源进行知识结构的解析:其三是揭示在上述二者之间的内在联系。需要借助人工智能技术,有针对性地多角度、多途径、全方位进行知识组织研究,满足用户的多维知识需求。

2多源自媒体资源知识组织模型逻辑框架构建

2.1多源自媒体资源知识组织方式和单一来源自媒体资源知识组织方式的区别

单一来源自媒体资源知识组织方式是指只从一个特定平台或渠道收集多源自媒体资源进行知识组织。这种方式的优点是数据来源相对稳定,数据格式和内容类型较为一致,便于管理和处理。例如,如果仅从知乎平台收集问答信息,那么数据主要以文本形式存在,且结构清晰,可以按照问题、回答、评论等维度进行分类和索引。然而,多源自媒体资源知识组织方式则需要面对来自多个不同平台和渠道的数据,这些数据不仅在格式上可能存在差异(如文字、图片、视频等),而且在内容和主题上也可能各不相同。这就需要更为复杂的知识组织策略和技术手段。

1)多源自媒体资源的知识组织需要解决数据整合的问题。由于各个平台的数据格式和标准可能不同,因此需要进行数据转换和标准化,以便于后续的处理和分析。

2)多源自媒体资源的知识组织需要考虑如何有效地提取和利用信息。这包括对数据的内容进行深入理解和解析,例如识别关键词、命名实体、情感倾向等,并建立它们之间的语义关联。

3)多源自媒体资源的知识组织还需要应对数据更新和变化的问题。由于多源自媒体的实时性和动态性,数据可能会快速地产生和消失,因此需要设计合理的数据采集和更新策略。

多源自媒体资源知识组织方式相比单一来源自媒体资源知识组织方式,需要更强大的数据处理和分析能力,以及更为灵活和适应性的知识组织策略。

2.2多源自媒体资源知识组织逻辑框架

多源自媒體资源知识组织是数字资源知识组织领域下,基于多源自媒体资源知识内涵及与馆藏资源的关联关系开展的知识组织新模式,旨在从多源自媒体资源中寻求与馆藏资源的语义关联与映射,并尝试实现与虚拟馆藏资源之间的语义关联,从而为虚拟馆藏提供延伸服务。

将多源自媒体资源知识组织划分为多源自媒体资源特征知识组织和多源自媒体资源内容知识组织两个维度。在上述两个维度的知识组织基础上,再加以对虚拟馆藏资源的知识抽取结果,将三者进行语义关联,挖掘馆藏资源和多源自媒体资源在知识结构、知识内涵上的联系,并以此思路构建了多源自媒体资源知识组织逻辑框架,如图1所示。

3多源自媒体资源特征信息组织

多源自媒体资源特征信息组织是以知识元为核心要素,对多源自媒体资源的特征,即结构化信息的内容和特征进行抽象表示和概括,以促进知识的管理和利用,是知识元抽取、知识关联等知识组织工作的基础。多源自媒体资源特征信息组织结构整体划分为语义与全局两个维度,由表及里,由形式到内容进行知识元描述。首先从多源自媒体资源结构化信息出发,对结构化信息进行元数据描述,构建多源自媒體资源特征元数据描述框架,并采用形式语言进行规范化表示。其次通过引入本体,构建多源自媒体资源特征元数据描述模型。最后,从全局维度人手,为多源自媒体资源特征之间的语义关系构建一个系统性的元数据体系结构,以此全面地对多源自媒体资源特征信息进行抽象化表示,为后续的语义关联做好铺垫工作。

多源自媒体资源特征元数据描述框架构建包括4个步骤,分别为多源自媒体资源特征信息分析、多源自媒体资源特征核心要素提取、元数据标准复用、元数据描述框架构建。

3.1多源自媒体资源特征信息分析

多源自媒体资源特征信息的结构和布局较为简单,根据多源自媒体平台常见的作者一作品一观众/读者三元体系,将多源自媒体资源特征信息中作者相关信息定义为作者要素,将资源客观上存在的、一般不会改变的信息定义为客观要素,将因观众交互产生的、通常用于衡量资源质量的信息定义为质量要素。此外分别以B站、抖音.知乎3个平台的自媒体资源为例,分析这些多源自媒体平台的资源相关特征,从而为多源自媒体资源特征元数据描述框架构建提供参考依据。

B站多源自媒体资源特征信息基本分布于详情页,包括资源标题、播放量、弹幕量、作者、作者认证信息、作者粉丝量、资源获认可量(点赞、投币、收藏)、资源标签、资源关联等。其中作者、作者认证信息、作者粉丝量可归纳为作者要素,资源标题、资源标签可归纳为客观要素,播放量、弹幕量、资源获认可(点赞、投币、收藏)、资源关联可归纳为质量要素。

抖音多源自媒体资源特征信息与资源详情页的体现不够完整,需要借助作者主页来补充信息,包括作者、资源标题、资源标签、资源获认可量(点赞、收藏)、作者认证信息、作者粉丝量、总获赞量等。其中作者、作者认证信息、作者粉丝量、总获赞量可归纳为作者要素,资源标题、资源标签、播放量和访问地址可归纳为客观要素,播放量、资源获认可量(点赞、收藏)可归纳为质量要素。

知乎多源自媒体资源特征信息与资源详情页的体现同样不够完整,同样需要借助作者主页来补充信息,包括作者、发布日期、资源标题、资源标签、资源获认可量(点赞、评论)、作者从事行业、作者粉丝量、总获赞量等。其中作者、作者从事行业、作者粉丝量、总获赞量可归纳为作者要素,资源标题、发布日期、资源标签可归纳为客观要素,资源获认可量(点赞、评论)可归纳为质量要素。

3.2提取多源自媒体资源知识元核心要素

结合上文中所分析和归纳的多源自媒体资源特征信息,并参考现有的成熟元数据标准,提炼多源自媒体资源特征要素(如表1所示),为多源自媒体资源知识元元数据框架构建奠定基础。

3.3元数据标准复用

由于多源自媒体资源方面目前并没有专业的元数据标准,因此考虑从较为广泛的网络资源领域选取了DC元数据进行复用。

DC(Dublin Core)元数据又称“都柏林核心元数据”,是当前图书馆界应用最广、影响最大的标准化元数据,其主要元素构成如表2所示。

3.4构建多源自媒体报纸资源知识元元数据描述框架

参考DC元数据标准后,本文复用了其中5个元素(题名、日期、创建者、主题、来源),关于已定义的其余多源自媒体知识元要素,目前尚未找到近似的元数据标准,因此,本文进行自定义一个元数据标准(wemedia,简写为wm)说明,元数据元素共计17个,具体信息如表3所示。

4多源自媒体资源内容信息组织

多源自媒体资源内容信息组织是基于互联网环境下用户进行信息检索的主要方式中的视频检索,即到视频中找答案的检索行为而构建的。主要以人工智能技术对多源自媒体资源的内容进行知识抽取工作,主要分为实体抽取、事件知识元抽取和主题知识元抽取3部分,对资源中包含的知识元进行具象化概括和标注,以对多源自媒体资源特征信息组织进行补充,为后续的语义关联提供支持。

4.1多源自媒体资源内容文本化

在知识组织工作中,组织的对象均为各种形式的文本信息,而非文本类多源自媒体资源中同样包含着许多有价值的信息,却由于载体的限制从未成为知识组织的对象。因此,本文尝试提出一个研究思路,通过若干步骤对非文本类多源自媒体资源进行文本化,提取出资源中的内容,使其可以适用于当下常用的知识组织方法,为知识抽取工作提供数据支持。当前,非文本类资源包括视频资源、音频资源和图片资源,由于图片资源内容特征涉及非文字性的图形、色彩、色调、纹理、内容对象、物理制作等要素信息,现有技术对于图像提取信息的手段缺乏而无法获得有效信息,因此本文对多源自媒体资源内容文本化的设计将忽略图片资源信息,仅考虑视频资源和音频资源。下面将以B站视频类多源自媒体资源“【罗翔】正当防卫的尺度”为例,展示多源自媒体资源内容文本化的主要流程。

1)工具选择与项目搭建

本文选择的多源自媒体资源文本化工具为深度卷积神经网络(DCNN)、连接时序分类(CTC)方法及语言模型Language Model等,使用语音识别专用数据集进行训练。

首先通过特征提取将音频文件中普通的语音信号通过分帧加窗等操作转换为神经网络需要的二维频谱图像信号,即语谱图。然后通过DCNN(深度卷积神经网络),将声学信号转换为拼音标签序列。

在语音识别系统的声学模型的输出中,往往包含了大量连续重复的符号,因此还需要使用CTC(连接时序分类)方法将连续相同的符合合并为同一个符号,然后再去除静音分隔标记符,得到最终实际的语音拼音符号序列。

拼音转汉字的原理参照动态规划算法,与计算机学中的最短路径的算法基本相同。可将拼音到汉字的转化看成对最短路径问题的求解,每个汉字有且仅有1个音,但每一组拼音可以对应多个汉字,将拼音符号序列对应的字自左向右相连即构成1张有向图,如图2所示。

Y1是输入的拼音符号序列,W11、W12、W13分别为Y1的第一、二、三个候选字,有向箭头表示该候选字与下一个候选字组成的字段符合原本语义表达的概率,后续以此类推直到Y。与最短路径问题略有不同的是,在语音转化中期望得到的结果是到终点概率最大的路径,因此本文使用了最短路径算法中的贪心算法来进行语音到文本的解码。

贪心算法(又称贪婪算法),指在对问题求解时,总是做出在当前看来是最好的选择。也就是说,不从整体最优上加以考虑,他所做出的是在某种意义上的局部最优解。贪心算法不是对所有问题都能得到整体最优解,关键是贪心策略的选择,选择的贪心策略必须具备无后效性,即某个状态以前的过程不会影响以后的状态,只与当前状态有关。

2)多源自媒体资源下载与音频提取

由于本文使用的多源自媒体资源文本化工具的输人格式为音频文件,因此需要对非音频资源(即视频资源)进行预处理,提取出音频部分。多源自媒体资源的下载渠道为各自媒体资源平台网站、APP或公众号等,大多数多源自媒体平台的音频缓存格式为.mp3,视频缓存格式则为.mp4或.flv,通过一些视频处理软件即可实现音频提取。

B站的视频缓存格式较为特殊,为.m4s格式,因此不能通過常规视频处理软件,需要用.m4s专用的软件进行提取,否则会造成文件损坏。B站多源自媒体资源文件缓存index.json为页面配置文件,audio. m4s和video. m4s分别为该资源的影像部分和音像部分,我们仅需要其中的音像部分即可,即audio.m4s文件,再将该文件使用.m4s专用软件(如秒转m4s等)将audio. m4s文件转为.mp3的音频文件即可。

3)格式转化

在音频识别项目中为了减少环境的负荷,通常要求音频文件的shape[list]≤1600。而.mp3文件的shape[list]为42605,远远超出临界值,因此需要对.mp3文件进行轻量级化,转化为更接近原声的.wav文件,减少对环境的依赖程度。

由.mp3文件到.wav文件的格式转化可使用Audacity软件完成,只需使用Audacity打开.mp3文件,重新录制后再导出为.wav文件即可。

4)语音识别

将处理后的音频文件路径输入语音识别项目后即可输出识别后的中文文本。

4.2多源自媒体资源内容关键词与知识摘要抽取

多源白媒体资源内容知识摘要与关键词抽取分别使用了TextRank算法中的Summarize函数与Key-words函数。

TextRank算法是由页面重要性排序算法Pag-eRank算法迁移出来而生成的新算法,PageRank算法依据页面间的链接性联系构建网络,而TextRank算法则依据字词间的共现性联系构建网络。

PageRank算法所建立的网络上的边为有向无权边,而TextRank算法把单词当作万维网中的节点,并通过单词间的共现性关系判断一个单词的价值,从而把PageRank中的有向无权边转换为无向有权边。

首先需要将给定的文本进行分词和词性标注,词性标注与命名实体识别相似但不完全相同,词性标注指根据词性标记所有词语,而命名实体识别仅选出已被定义的的实体。本文分词及词性标注同样采用Jiagu自然语言处理工具构建完成。多源自媒体资源内容词性标注标准如表4所示,以B站视频类多源自媒体资源“【罗翔】正当防卫的尺度”为例,展示分词及词性标注结果,如图3所示。

在所有词性标注的结果中剔除停用词,只保留名词、动词、形容词等,而后即可构建词图G=(V,E)。其中V为节点集合,由经过上一步所产生的词汇构成,然后通过共现关系构造任何两个节点相互之间的边:在窗口尺寸为K的视窗中(即最多共现K个单词,通常K取2),两个节点相互之间具有边当且仅当它们所相应的词汇在尺寸为K的视窗中共现。

根据式(1).可以迭代求解各节点占据的权重,直到收敛。对节点的权重实行倒序排序,由此得出了最关键的t个词,命名为top-t词。对新获得的top-t词,在原始文本上加以标注,如果在它们的中间产生了任意相邻短语,就当作关键词抽取出来,即最终输出的结果。

在给定文本中抽取关键句时,把文本中的各个语句单独视为一个节点,假设两个语句具有相似之处,即认为在这两个语句对应的节点间具有一条无向有权边,判断语句间相似性的公式见式(2):

其中S1、S2为两个独立的句子,w为句子中的词汇集。式(2)右侧分子部分意为是同一个词重复出现在两个句子中的次数,分母则是对句子中词的个数求对数后再求和,如此方可控制较长文本在相似度计算上的误差。

按照上述相似度计算公式循环计算出任何两个节点间的相似度,并设定阈值以去除两个节点中间相似度较低的一边,进而建立出节点连接图,随后迭代计算各个节点的TextRank值,在排序后选出TextRank值最大的n个节点,将其对应的语句作为关键句,并作为结果输出。

以B站视频类多源自媒体资源“【罗翔】正当防卫的尺度”为例,关键词及知识摘要抽取结果如图4所示。

4.3多源自媒体资源内容知识组织信息整合

按照多源自媒体资源知识元模型逻辑框架,多源自媒体资源内容知识组织所得结果将会与多源自媒体资源特征知识组织的所得结果一同进行语义关联,为方便语义关联工作的进行,需要将多源自媒体资源内容知识组织的结果集成到已构建的多源自媒体资源特征信息本体中,合并为多源自媒体资源信息本体,如图5所示。

4.4多源自媒体资源语义网络构建

1)语义网络

语义网络(Semantic Network)是奎林(Quillian JR)于1968年提出的一种以网状脉络表达数据关联的形式,是人工智能程序运用的表示方式之一,是一种直观的知识表示方法。语义网络本质上是多组三联组的组合与扩展,其构建方法主要是半自动法或自动法,包括概念抽取和关系抽取两个步骤。

2)多源自媒体资源特征知识元语义网络

通过Protege内的OntoGraf模块,可对构建好的本体模型进行结构脉络可视化,如图6所示。

由于语义网络的表达范围有限,一旦节点个数太多,网络结构复杂,推理就难以进行,因此在语义网络的构建过程中需要有意控制节点的数量。

根据图6中的结构脉络,在多源自媒体资源特征信息分类层次的基础上,将从事行业、职业经历、教育经历概括为履历知识元。由于日期在语义网络构建中具有格式特殊性,因此将其从客观信息类中分出,独立概括为时间知识元,概括后的整体知识元语义网络如图7所示。

多源自媒体资源特征语义网络将多源自媒体资源的属性以及属性间的语义联系显示地表现出来,下层结点可以继承、新增和变异上层结点的属性,从而便于实现信息共享和知识挖掘。

5多源自媒体资源语义关联实验

为对多源自媒体资源知识组织结果进行延伸和应用,以实现研究目标中的馆藏到多源自媒体资源的一对多映射,基于语义学理论,通过计算机领域的关联算法对多源自媒体资源知识组织结果和馆藏资源进行语义关联研究,设计多个方案进行关联并通过实验比对它们的效果。

5.1语义关联实验设计

对语义关联实验进行设计,实验的设计将分为4个部分,分别是需求分析、语义关联算法选取、语义关联方案设计和实验流程设计。

5.1.1实验需求分析

算法需要对知识组织的结果预处理后的数据同关联对象进行语义关联计算,输出与给定的每个多源自媒体资源知识组织结果的语义关联度,并按语义关联度高低进行排序。排序后的各多源自媒体资源知识组织语义关联度,关联度最高和最低之差应不小于0.01,确保语义关联结果能表现出明显的高低之分。

5.1.2语义关联算法选取

1)语义关联算法。语义学理论中认为,任何两个词语的相似度取决于它们的共性(Commonality)和个性(Differences),语义关联度一般为一个0~1之间的实数。

目前较为常见的语义关联算法主要有:词向量关联法、特征关联法、Bert概率关联法和词典关联法。由于词向量关联法相较于其他关联法较为直接和简便,因此在目前语义关联方面的算法更多会选择词向量关联法。

2)算法评价指标。衡量机器学习算法的三大指标为:查全率、查准率和F1。

3)语义关联算法对比分析。本实验中选择了词向量关联法中使用较多的几种算法,并通过上述评价指标进行对比,如表5所示。

通过表5中的数据可见,算法text_similar-matching-tool-master在3项指标上都明显优于其他算法,因止匕选择text_similar-matching-tool-master来进行语义关联实验。

5.1.3语义关联方案设计

通过结合多源自媒体资源知识组织中的多源自媒体资源语义网络脉络,已确定的语义关联方案有两种:整体关联法和加权关联法。在本实验中根据语义网络中各节点之间的距离为多源自媒体资源知识组织结果中的各个部分赋予权重,将各部分单独作为算法的输入结果进行语义关联,再对输出的结果进行加权运算,得出最终的加权语义关联度。

在对算法的测试过程中发现,实验算法对长文本的语义关联度输入结果浮动较大且整体偏低,而对短文本的语义关联度则较为稳定,因此需要进行预实验加以确定。

如图8所示,将一段100字的文本分为5段20字的文本,再将它们分别与另一段关联文本进行语义关联,关联文本为该100字文本经翻译成英语、德语后再翻译回中文的结果,语义关联结果如图9所示。

图9中的similarity为100字文本同关联文本间的语义关联度,而similarity1~5则为分段后的5段文本各自与关联文本间的语义关联度。

通过预实验可发现,similarity1~5均高于simi-larity,且对similarity1~5计算平均值后依然远高于similarity。由此可见同一段文本内容,将其整体进行关联和分段进行关联的结果存在较大偏差。

多源自媒体资源知识组织结果由组成结构化信息、命名实体、关键词、知识摘要等组成,因此考虑对多源自媒体资源知识组织结果进行分段,其中知识摘要字数相对较多可根據文段长度适当分为2~3段,再将它们分别与关联对象进行语义关联,以此构建分段关联法。因为分段需要进行数倍于整体关联法的工作量,因此在保证输出语义关联度最高的5个结果能够达成的基础上,分段关联法将仅在整体关联法结果中的语义关联度最高的10个结果中进行。

分段关联法对多源自媒体资源知识组织结果的分割恰好符合加权关联法的数据需求,因此加权关联法可在分段关联法的基础上进行。

至此,本实验的语义关联方案全部确定,分别为整体关联法、词句关联法和加权关联法,实验语义关联方案设计流程图如图10所示。

整体关联法为语义关联算法的直接调用,计算出关联对象与多源自媒体资源信息的语义关联度。

分段关联法在整体关联法的基础上,对结果中语义关联度前十的多源自媒体资源进行分段,以所有文段对于关联对象信息的平均语义关联度,作为该多源自媒体资源信息整体对于关联对象信息的语义关联度输出。

加权关联法在词句关联法的基础上,对分段后的语义关联度进行加权计算后得出加权语义关联度。权重分配参照多源自媒体资源本体及知识元语义网络结构,以节点的级别进行分配。

其中内容知识元、作者知识元和客观信息知识元与上一级节点之间的距离比约为1:1.5:2.5,因此3个知識元与上一级节点的关联程度比为1:111.5:1/2.5,化简后约为5:3. 33:2,为方便加权计算,应尽量使比例总和为10个倍数,因此此处将关联程度比例近似视为为5:3:20

通过上述比例可对一级节点进行权重分配,其中内容信息占0.5,作者信息占0.3,客观信息占0.2,后续节点因距离差不够明显,计算比例较为困难,因此采用依次平分的形式,具体如表6所示。

5.1.4实验流程设计

1)数据准备,将实验所需的多源自媒体资源信息数据与关联对象数据分别进行整理。

2)语义关联计算,将整理的数据集通过3种算法进行语义关联度计算,分别得出与之关联度最高的5个结果及其语义关联度。

3)结果检验,结果检验分为两个部分。第一部分为对3种算法的整体关联正确率进行人为判断相关性,第二部分为对比词句关联法和加权关联法下各个结果所计算出的语义关联度。

4)实验分析及总结。

5.2实验数据收集及预处理

对实验所需要的数据进行需求分析,确定数据的来源、类型和内容构成。然后通过技术手段对实验数据按需求分类、分结构进行收集。最后对实验数据进行预处理,以方便后续实验流程进行。

5.2.1实验数据说明

实验的数据主要分为两个部分:多源自媒体资源知识组织结果和关联对象数据,数据类型均为txt文本文件。

多源自媒体资源数据知识组织结果通过上文构建的多源自媒体资源知识组织方法获得,分别从B站、抖音、知乎3个社交媒体平台选取若干多源自媒体资源数据,进行知识组织后将结果分别存入本地。出于工作量的考虑,将3个平台的多源自媒体资源数量均定位50个。

为验证语义关联效果是否准确,应该在语义关联数据集中适当加入干扰信息,因此在实验中设置了20%的干扰信息,即与关联对象不相关的多源自媒体资源数量占总多源自媒体资源数量的1/5。

5.2.2多源自媒体资源知识组织结果获取

1)数据来源及类型。多源自媒体资源知识组织的结果,来源于多源自媒体资源经过第二部分多源自媒体资源知识组织的结果输出。而知识组织对象的多源自媒体资源从B站、抖音、知乎3个平台选取主要法律相关的知识性多源自媒体资源,其中200-/0的干扰性信息选取金融相关知识性多源自媒体资源。

2)数据采集。以B站为例,通过在网页中查看源码可知,B站的分区及关键词等信息均包含在

  • 版块中,因此在抓取时,应优先加入一段对tag所在行的内容的判断。若tag中同时包含法律和金融等文本,则之间跳过该多源自媒体资源,对下一个多源自媒体资源进行筛查。

    在通过上一步的筛查后,即可对多源自媒体资源进行数据采集,采集的对象包括标题、作者、标签等结构化信息,还包括多源自媒体资源本身,需要将其下载到本地并进行音频提取等操作。

    3)知识组织。对多源自媒体资源数据按多源自媒体资源知识组织模型进行知识组织后,将数据分别写入txt文本文件,如图11所示。

    5.2.3关联对象数据获取

    1)关联对象选取。多源自媒体资源知识组织目标之一是实现馆藏到多源自媒体资源的一对多映射,寻找馆藏与多源自媒体资源在知识结构上的映射关系,以满足用户日益增长的知识需求,使图书馆实现由多源自媒体资源到馆藏的利用,因此,本实验中的关联对象选择了图书馆虚拟馆藏资源。而由于需要保证语义关联的效果,因此关联对象与待关联的文本之间应该具有相关性,即虚拟馆藏的选取应该选用法律相关的馆藏资源。本实验关联对象资源选择了虚拟馆藏资源《法律基础》,如图12所示。

    2)关联对象信息抽取目标分析。对关联对象做信息抽取的主要目的是提供与多源自媒体资源信息进行语义关联工作的数据。而本文的研究主体为对多源自媒体资源信息进行的知识组织,关联对象是作为语义关联的参照而存在的,因此对关联对象的知识抽取,只需对在虚拟馆藏所在页面上能表示该虚拟馆藏的信息进行收集和组织即可,不需要对关联对象信息抽取的结果构建本体。

    在语义关联中,对文本的分段不是必要的,进行语义关联的两段文本在长度相差较大时误差甚至可以忽略不计,因此不需要对关联对象信息抽取的结果分段,保留其内容写入txt文本中即可。

    3)关联对象信息抽取框架构建。根据虚拟馆藏资源知识信息目标分析的结果构建了虚拟馆藏资源信息抽取框架,如表7所示,抽取结果如图13所示。

    5.2.4数据预处理

    为方便实验进行,对知识组织所得结果的txt文本进行分类整理,文件以【数据来源平台+序号】命名,通过对txt文本进行命名,在后续试验中即可通过循环算法对同一来源的多个文本进行语义关联,大大减少实验工作量。

    5.3运行结果及分析

    5.3.1算法运行结果

    本实验采用的3种方案分别为整体关联法、分段关联法和加权关联法的运行结果,根据实验需求设计,对各个实验方案输出结果中的语义关联度最高的5个结果及其语义关联度进行展示,如表8~表10所示。

    5.3.2实验结果分析

    本实验的研究目标是实现虚拟馆藏资源到多源自媒体资源的一对多映射,主要的衡量指标应为输出的结果具体是否与虚拟馆藏资源相关,因此本实验的运行结果分析主要通过观察分析来完成。

    算法的运行结果显示,整体关联法同其他两种算法所得的语义关联度相差甚远,词句关联法和加权关联法所得语义关联度在0.4~0.5之间,而整体关联法所得语义关联度均在0.3以下。3种算法均能关联出共计150个资源中在标题上与关联对象《法律基础》有直接相关的,也是内容上最为相关的一个,即《法律基础一民事诉讼(一)》这一资源。证明3种算法对高度相关资源的关联能力符合预期结果。

    从整体关联正确率来看,词句关联法和加权关联法均能关联出5个法律相关多源自媒体资源,符合预期结果。

    而对比词句关联法和权重关联法可见,加权关联法所得5个结果的语义关联度较为相近,而词句关联法所得5个结果的语义关联度则较为分散。

    以语义关联为基础,综合运用了语音文本化、语义识别和语义关联等人工智能技术,以收集一组织一关联一发现为主要流程对多源自媒体资源进行了知识组织研究,实现了虚拟馆藏资源到多源自媒体资源间的一对多映射。

    6总结

    本文分析了多源自媒体资源特征信息,构建了多源自媒体资源元数据描述框架。在元数据描述框架的基础上,构建了多源自媒体资源本体,对构建本体所需的概念分类、层次结构、属性和关系进行定义,为语义关联提供支持。通过融合语音识别、语义识别等技术,将知识组织研究拓展到非文本类资源领域,为知识组织研究提供了新的思路。本文通过分词和加权计算,设计了图书馆馆藏资源和多源自媒体资源间的语义关联算法并进行了检验,对比了不同算法下语义关联的结果。达成了虚拟馆藏资源到多源自媒体资源之间一对多映射关系的研究目标,且关联关系较为准确,在一定程度上对虚拟馆藏延伸有参考性。

猜你喜欢
元数据
元数据国际交换共享的客家古民居数字记忆工程建设
基于来源的组织机构元数据构建研究
元数据与社会化标签在微视频搜索中的应用
高等院校智慧校园建设规划与实现
利用VB读取中国知网过刊数据提取元数据的研究
财会信息资源元数据标准的研究
基于隐语义模型和用户信任的个性化推荐模型
基于关联数据的语义数字档案馆框架设计研究
基于角色控制的异构数据展示在企业门户中的应用
基于元数据映射机制的异构数据操作