基于知识挖掘技术的专家智慧萃取复用系统设计

2023-07-29 16:24尹建新徐进苗满晓彤
电视技术 2023年6期
关键词:显性语料隐性

尹建新,徐进苗,满晓彤,张 玲

(中国电子科技集团公司第三研究所,北京 100016)

0 引 言

当前,随着“全民自媒体时代”的到来,读者观众面对海量媒体信息,在有限的注意力下,很难持续关注某一话题和内容源。这给传统内容生产单位带来了激烈的外部竞争和挑战。业务专家作为单位的核心战略资源,在长期的内容生产业务中积累了丰富的经验智慧[1]。如何通过科学的方法萃取单位内部关键业务专家的经验智慧并实现有效复用,生产高质量的多模态精品节目,成为提高单位核心竞争力的关键所在。

本文以多模态内容生产业务需求为牵引,以对专家智慧的萃取和业务复用为目的,从知识的挖掘、转化、复用角度分析专家智慧的样式、载体、转移条件,并在萃取技术和复用模型方面进行设计和探析。

1 专家智慧在“知识冰山模型”中的分布

“知识冰山模型”将知识分类显性知识和隐性知识两类。显性知识又称明晰知识、外显知识,是指能明确表达的知识[2]。显性知识易于编码,人们可以通过书本资料、期刊杂志、视听媒体、软件和数据库等方式将显性知识记录下来供组织内部再次学习、应用和继承。显性知识相对容易保存,而隐性知识往往只能保存于人的大脑中。人的经验、信念等知识是难以让别人学习、共享的非编码型知识,往往要通过人际、人机在特定场景环境下交流才能显示出来,不易被挖掘。

专家智慧在“知识冰山模型”中的分布如图1所示。从“知识冰山模型”来看,专家智慧中,显性知识和隐性知识都有分布[3]。显性知识包括陈述性知识(如某一专业领域的事实、重要概念、描述原则、理论方法等)和程序性知识(主要是完成内容生产所需要的行为和操作步骤,如某事实评论的文案脚本、某视频生产工具使用习惯等)。隐性知识包括技能类知识(如创作思路、策划理念、策划经验、预期效果的知觉判别)和心智类知识(如信念、观点、洞察力、动机、感悟、心智模式等)。

图1 专家智慧在“知识冰山模型”中的分布

2 业务路线分析

对专家智慧的萃取和复用,就是对专家智慧的挖掘和共享。其核心是将隐性知识转化为显性知识并进行载体转移[4](知识由人转移到模型系统中)。专家智慧萃取复用业务路线如图2 所示,共有4 个路线。

图2 专家智慧萃取复用业务路线

(1)对专家历史积累的成品文件、素材、工程文件等组成的显性知识的萃取和复用。通过多模态语义提取技术对成品和素材进行挖掘,形成“标记的训练语料”(以显性知识为主),再通过聚类分析等方法汇入知识经验模型。

(2)对专家大脑内的隐性知识,需要先结合多模态内容生产业务场景需求驱动生成特定的语料体系。通过人-机(人)问答体系、决策点设计等方式形成原始语料,再营造专用语境有效刺激专家大脑进行隐性知识表达,形成含有隐性知识的标记训练语料。经过知识挖掘的“编码”过程汇入知识经验训练模型,形成显性的知识经验。

(3)知识和经验模型复用于多模态内容生产的策划、生产、发布、内容效果评估反馈环节。

(4)专家智慧萃取到载体(知识经验模型)并共享复用之后,模型进一步结合多模态内容生产和业务场景进行不断的反馈和修正。通过调节语料、问答体系和决策点设计内容迭代调整形成良性循环,发挥专家智慧更大效用。

3 专家智慧萃取复用系统组成

专家智慧萃取复用系统功能架构如图3 所示。根据专家智慧的知识分布和载体特征,本文构建了专家智慧萃取子系统,对现有显性知识进行挖掘直接形成语料,对隐性知识通过问答决策点设计、语料体系对隐性知识进行深度挖掘,最后形成知识经验模型[5]。专家智慧复用子系统基于知识经验模型在多模态内容策划、生产、发布和效果评估反馈环节进行知识复用,整个工作形成一个闭环。

图3 专家智慧萃取复用系统功能架构

3.1 专家智慧萃取子系统的实现

3.1.1 语料体系

语料体系包含原始语料采集、数据预处理、标注体系、编码转换、语料分割以及标注语料库管理等功能,整体流程如图4 所示。

图4 语料体系流程图

原始语料采集依据多模态内容生产业务的场景需求,通过公有、私有多模态数据进行查询汇聚。数据预处理对原始数据进行格式转换、数据清洗、文档分割。标注体系提供可视化数据标注接口,支持标注样式设计、标注去重、统计分析以及可视化结果展现;支持按需进行编码转换和语料分割,对标记的训练语料进行归类管理,支撑知识经验模型训练。

3.1.2 显性知识挖掘

显性知识载体主要是专家历史积累下来的多模态成品、素材和工程文件。显性知识挖掘按照不同载体类型,进行知识提取和挖掘。成品和素材主要以音视图文的形式存在。对不同的载体类型,使用不同技术进行知识抽取,具体技术如表1 所示。

表1 显性知识载体类型及对应的内容抽取技术

3.1.3 问答和决策点设计

针对技能类隐性知识,可通过问答+决策点设计的方式挖掘。基于多模态内容生产的主题、生产环节,挖掘隐藏在流程内部的“决策点”,依据决策点形成与专家问答交流的语境。专家完成基于决策点的问答后,形成含有“隐性知识”标记的训练语料。

3.1.4 隐性知识挖掘

针对心智类隐性知识(如信念、观点、洞察力、动机、感悟、心智模式等),难以通过设计“决策点”实现,只能采用人-人直接交流的方式实现。首先,在适宜的交流环境中明确主题的背景语境,设计好话题和发言范围,确定合适的交流时间、交流形式;其次,触发家专家积极思考、主动表达;最后,形成含有专家心智类隐性知识的交流结果,如多模态、有标记的访谈记录等。

3.1.5 知识经验模型设计和训练

知识经验模型训练架构如图5 所示。知识经验模型包含语料层、策略层、方法层以及知识经验层4 层。语料层由文本抽取的语料、音视频抽取的语料、工程文件的数据、标记的决策点数据以及标记的专家问答语料等模块组成。策略层由提炼模板、数据分类、异常检测、相似性/差异性以及反馈修正模块组成。方法层由关联算法、聚类算法、分类算法、预测算法、回归算法以及序列分析算法组成。知识经验层面向上层应用提供多维立体展示功能,由决策点、关系维、数据维及场景维组成。

图5 知识经验模型训练架构图

3.2 专家智慧复用子系统实现

3.2.1 多模态内容策划

多模态内容策划结合模态内容生产任务要求,基于知识观念模型提供的思路创意,自动生成文案脚本和视频场景逻辑,支持知识观念模型对制作内容的理解,依据视频场景逻辑进行音视图素材智能聚类准备。

3.2.2 多模态内容生产

多模态内容生产依据文案脚本调用文字生成引擎(如GPT 类软件)、图片生成引擎(如AIGC 类软件),结合领域素材库生成文字文案,基于知识观念模型、文案进行评价和筛选。音视频内容生产,依据视频场景逻辑调用智能AI 生产能力,结合领域素材库、工程文件库,自动生成音视频成片。

3.2.3 效果评估反馈

效果评估反馈模块为每一个成品内容建立多维度效果预判矩阵参数。内容发布前,用知识经验模型中学习到的专家智慧评价部分对内容进行预评价。内容发布后,用采集的真实效果数据修正效果预判矩阵参数。

4 结果与讨论

通过本次探析发现,对专家智慧的萃取和复用,就是对专家智慧的挖掘和共享,其核心是将知识进行编码和载体转移(由专家大脑转移到模型系统中)的过程。

从“知识冰山模型”来看,专家智慧中显性知识部分(陈述性知识、程序性知识)已经储存在成品文件、素材和工程文件中,通过各类内容抽取技术可实现较好的知识萃取。对于专家智慧中的技能类隐性知识,可以通过特定的语料、问答场景设计刺激专家大脑,生成含有隐性知识的标记语料,通过知识挖掘和编码,进行显性化的训练。专家智慧中,心智类隐性知识的萃取难度最大,只能通过人-人交流的方式,在特定专题语境下,通过与专家交流,触发专家主动思考表达,并由人完成对知识的编码,生成音频、文本、视频等多模态训练语料。专家智慧尤其是隐性知识部分很难充分挖掘,还需要建立基于业务的反馈修正模式,对新的载体-知识经验模型进行迭代完善。

对专家智慧复用的关键是对专家智慧新的载体-知识经验模型的充分利用。需要注意的是,专家智慧可能分落到全业务链,比如多模态内容生产的策划、生产、发布、评估反馈各环节。挖掘全业务的“决策点”并结合问答语料存储专家智慧,是有效实现智慧复用的关键环节。

5 结 语

专家智慧在提高单位竞争力反面具有十分重要的意义。本文分析了专家智慧在“知识冰山模型”中的分布特点,基于业务使用场景,提出了专家智慧萃取复用系统的设计框架,对进一步提高“模型载体”的作用进行了探析,为专家智慧挖掘共享提供了一种实现思路。

猜你喜欢
显性语料隐性
隐性就业歧视的司法认定
显性激励与隐性激励对管理绩效的影响
社会权显性入宪之思考
基于语料调查的“连……都(也)……”出现的语义背景分析
华语电影作为真实语料在翻译教学中的应用
刍议隐性采访
新闻报道隐性失实的四种表现
显性的写作,隐性的积累——浅谈学生写作动力的激发和培养
《苗防备览》中的湘西语料
国内外语用学实证研究比较:语料类型与收集方法