自媒体APP中医药多模态语料库的构建研究

2022-10-14 08:53王越彭咏梅
现代信息科技 2022年16期
关键词:语料模态语料库

王越,彭咏梅

(江西中医药大学 人文学院,江西 南昌 330004)

0 引 言

中医药是一个不可估量的宝藏,为人类的生命健康做出了不可估量的贡献。近年来,中医药的发展越来越受重视,国家扶持中医药发展的力度持续加大。自“一带一路”发展战略提出以来,文化自信与文化走出去被提上议程,中医药文化作为我国五千年文明中一朵璀璨的奇葩,更是其中的杰出代表。中医药在过去几千年的历史长河中救黎民百姓于水火,现如今,我们依旧从中医药典籍中受益无穷。2003年非典型肺炎以及2019年爆发的新冠疫情,中医经方的疗效显著。新冠疫情的抗击实践展示了中西医结合疗法的独特优势,为世界所关注。

社会更迭时代进步,守正创新才是中医药重焕“青春”的关键。为了在新时代谋求新发展、传承精华,不断探索中医药现代化道路,中医药必须适应且依托不断更新的信息技术,融合先进科技和创新方法,走向国际舞台。截至2020年3月,中国网络新闻用户规模达7.31亿,较2018年底增加5 598万,占网民整体的80.9%。与此同时,自媒体随着网络媒体的迅猛发展,充分激发了内容的产出,并为现代信息技术等各行业提供了新的发展机遇。本文以此为视域,建立中医药文化多模态语料库,分析中医药文化传播特征,以期在后续助力中医药文化传播的工作中,提出更多切实可行的建议和策略设计蓝图。

中医药多模态语料库是集合中医学、语言学、统计学及计算机科学等多个学科知识的交叉融合产物。简而言之,中医药多模态语料库是一个收集中医药语言材料的数据库,也是关系型数据库应用的扩展与延伸。该数据库依托简明的数学理论基础和描述性的操作语言提高了系统开发的生产率,优化了事务查询管理技术,同时也提升了研究效率。相对于当前依然占据主体地位的文本语料库,多模态语料库在实时性、完整性和多样性方面略胜一筹,更符合当下的学习需求。在软件技术的辅助下,成其为当前单模态语料库的补充方案。通过构建中医药多模态语料库,可使各界人士学习了解中医药,为中医药在国内的传承与创新发展的研究提供一定的参考依据。

1 相关研究

1.1 中医药语料库研究综述

在中国知网、万方数据库、维普数据库等全国知名文献检索网站中,查询2000年至今与中医药语料库相关的文献,高级检索主题包括“中医药语料库”或“中医语料库”,且文献类型为全库资源中的学术期刊以及学位论文等。最终所得的检索式为:TI=中医药语料库OR中医语料库。

自2000年以来,国内学者开始对中医药语料库方面的研究进行探索。通过CNKI可视化分析可知,国内中医药语料库研究大致可以总结为初步探索期(2000~2011),逐步发展期(2012~2014),繁荣增长期(2014~2017),并且在2017年发文量达到顶峰,到2018年进入持续回落期(2018~2020),再到稳步回升期(2020至今)五个阶段。闻永毅教授(2003)对中医药术语语料库建设领域进行研究;随后,程玲(2005)探讨了在中医英语语料库视角下的创建及教学意义等相关研究;另有学者对中医药语料库的应用进行研究(杜雪琴,2018;王世杰,2019);徐春捷等学者(2015)又基于中医翻译的框架,研究英汉翻译平行语料库的建立。当前中医药语料库相关研究已经涉及多个学科和领域,但还未出现中医药相关多模态语料库的研究,需要做进一步的探讨与补充。

1.2 ELAN工具介绍

Elan(EUDICO Linguistic Annotator)是由荷兰马普心理语言文字学科研所建设的一款语言标注工具。对于语言学者而言,因其适用范围广而采用。Elan能够对影视和语音等多种文件同时执行构建、剪辑、可视化和查找的标注任务,也可以提供声音技术等多媒体后期制作功能,还能够对语句、手语、姿势等语料进行相应的处理。研究决定以Elan软件作为技术平台,构建中医药多模态语料库。

2 中医药多模态语料库的建设

2.1 采集内容

本文中医药多模态语料库采集内容为微信、微博、抖音等自媒体APP中与中医药相关的视频,包括中医治病理念、中药知识、养生小贴士,以及中医药典故等。

2.2 标注方法

在本研究建立的中医药多模态语料库中,标注层共有11层。标注信息如表1所示,包含中医药的表达方式、影像、图像、音乐等类别。

表1 标注信息

如表1所示,根据Thibault和Baldry的多模态广告语篇转录框架,分为旁白、独白、对话、人物、中药、人物&中药、文字、图片、文字&图片、主观音乐、客观音乐。将视频文件的音频生成,将视频与音频文件同时导入ELAN软件,再进行人工视频标注,如图1所示为使用ELAN软件进行标注的界面。

图1 标注界面

2.3 构建流程

整个工作内容分为以下四个方面:手视频语料采集、语料的标注、语料专家校验及语料库的更新和存储,中医药视频语料库的建立总体流程如图2所示。具体内容如下:

图2 构建流程图

(1)确定采集内容,对视频进行采集与切分。首先将MP4文件导入ELAN标注软件;其次按照时间段和镜头环境的切换对各个视频进行切分。

(2)建立转写标注层。本研究在建立中医药多模态语料库时,确定了11层的标注层级,以此为参考进行标注。

(3)进行校验。再次对采集内容和标注者信息等进行确认,并对标注内容进行校验。校验的目的是为了提高语料库的质量,以保证语料库的科学性。

(4)修正。最后再次核验语料库存在的问题,检查是否存在标注时段有误、标注信息误填等情况,并进行修正,最终形成中医药多模态语料库的雏形,将最终的MP4文件及标注转写语料EAF文件进行存储,如图3所示。

图3 文件存储

2.4 标注具体操作步骤

Elan软件简单易用易上手,整个标注操作可分解为以下五个步骤,以供参考:

(1)启动ELAN6.3,点击新建并导入视频。

(2)点击Tier并增加tier,输入层名、参与人、标注人、日期等信息;选择default,更改层属性,并输入新的标注信息。

(3)设置标注段。左键点击进度条,拖动鼠标到目标位置,再次点击进度条,形成一个标注段,双击标注段并进行命名。

(4)回放视频语料,进行多次转写与标注工序。

(5)点击View,选择Annotation Statistics,可查看并得到各层数据,点击保存,如图4所示。

图4 数据输出

3 结 论

本文从构建背景、构建意义、构建方法、构建步骤等四个方面对自媒体APP中医药多模态语料库的构建进行了分析探讨。在当前自媒体蓬勃发展的背景下,利用Elan软件对中医药相关视频、音频等语料进行切分、转写以及多层级标注,最终得以构建中医药多模态语料库。基于本语料库的构建,期望未来可延伸至其他研究领域,辅助中医药相关交叉学科研究成果的拓展及应用,并对未来的中医药交叉学科研究给以启发。

中医药多模态语料库的构建可辅助国内中医药文化传播实证研究。通过构建自媒体APP中医药多模态语料库,得出的分析结论能够更加全面地从语言学角度呈现国内媒体关于中医药的立场,加强对中医药传播效果的调查,探索有利于中医药传播的途径和手段,从而为中医药的传播研究提供助力,并在一定程度上为中医药文化传播政策的制定提供证据支持和参考思路。

综上所述,基于中医药多模态语料库的模态多样性与语境再现等特性,在未来可为中医药国内的传承与发展提供一定的创新尝试,并提出相应的措施及建议,致力于提高大众对中医药的关注度,提升中医药文化在国内的影响力,从实证的角度促进中医药文化在国内的传播与发展,为讲好“中医”故事贡献力量。

猜你喜欢
语料模态语料库
联合仿真在某车型LGF/PP尾门模态仿真上的应用
基于语料库翻译学的广告翻译平行语料库问题研究
可比语料库构建与可比度计算研究综述
模态可精确化方向的含糊性研究
中古汉语分期研究所涉及的语料问题
运用语料库辅助高中英语写作
基于滑动拟合阶次和统计方法的模态阻尼比辨识技术
如何使用第二外语学习者语料
基于CAE的模态综合法误差分析
语料库与译者培养探索