癫痫中医症状术语规范化研究*

2020-08-01 07:44张妮楠曹馨宇林睿凡史华新周洪伟
世界科学技术-中医药现代化 2020年5期
关键词:同义语料术语

张妮楠,曹馨宇,林睿凡,王 斌,史华新,周洪伟**,谢 琪**

(1. 中国中医科学院中医临床基础医学研究所 北京 100700;2. 中国标准化研究院基础标准化研究所 北京 100191;3. 中国中医科学院医院管理处 北京 100700)

癫痫是一种以具有持久性的致痫倾向为特征的脑部疾病,有着不同病因基础、临床表现各异但以反复癫痫发作为共同特征的慢性脑部疾病状态,是神经内科最常见的疾病之一,我国患病率在4‰-7‰之间[1]。系统评价与meta 分析显示,中西医结合治疗癫痫疗效优于单纯西药治疗,中药发挥了减少西药毒副作用增强疗效的作用[2-4]。中医常采用自然语言描述疾病症状,各学者及临床人员对本病的描述各异,中医症状缺乏统一的标准,导致症状命名不统一,定义不严谨,影响数据挖掘分析和临床疗效评价结果。临床诊疗数据向科研数据转化是目前研究趋势,临床诊疗数据的价值得到了越来越多的关注,术语的规范化是这一转化过程的基础和步骤,而显得尤为重要。

1 构建癫痫中医症状语料库

1.1 语料选取方法

语料(corpus),即语言材料;用于分析和研究语言数据的集合体为语料库;遵循语料库适用性、忠实性、一致性原则[5],本研究通过文献调研、专家咨询,得到癫痫相关标准、教材共24部,其中有明确定义、诊断和辨证分型的共6 部,摘取其中相关部分合成同一个文本,以逗号为标识符对原始语料进行分词。

1.2 语料来源特征

本研究所选语料来源有如下特征:《中药新药临床研究指导原则》针对76 个病证,采用现行通用的中西医病、证名,对于癫痫中医的各个证型做了详细的解释。《临床诊疗指南-癫痫分册》分别介绍癫痫的定义、分类、诊断、预后等,本研究主要选取癫痫中医药诊疗部分。《痫病颞叶癫痫中医诊疗方案》为颞叶癫痫的疾病诊断、证候诊断、中医药治疗和调护以及疗效评价提供了系统的诊疗方案。《中医病症诊断疗效标准》规定了中医内科57个病证,介绍了癫痫的病证名、诊断依据、证候分类、疗效评定,适用于中医临床医疗质量评定,中医科研和教学。《中医内科常见病诊疗指南-西医疾病部分》共86 种疾病,采用西医病名,提供西医诊断依据,适应病证结合诊疗模式,本研究选取中医药治疗癫痫部分。《中医内科学》作为代表教材,纳入54个病证,其中对癫痫的病因病机、诊治原则、证治分类、病症鉴别、辨证要点进行详细描述,具体见(表1)。

表1 语料来源、特点及语料数量

1.3 语料库构建

将文本数据,以逗号为标识符对原始语料分词,采用双人录入模式,基于Microsoft Excel 2013 构建语料库,对语料进行检查核实,确保语料的准确性、完整性。

2 癫痫中医症状术语的规范

本研究以《术语工作原则与方法》《中医药学名词审定原则与方法》为依据,以《WHO 西太平洋地区传统医学名词术语国际标准》[6]《中医药学名词》[7]《中医药常用名词术语词典》[8]《中医大辞典》[9]《中医症状鉴别诊断学》[10]《中医临床常见症状术语规范》[11]等为蓝本,提取癫痫中医症状术语的具体方法如下。

2.1 核心症状提取

癫痫语料中存在症状如“或有吼叫”,以副词加动词形式出现,其中动词“吼叫”是该症状的核心词,副词“或有”是其修饰成份,对于此类术语提取其核心症状,去掉其修饰成份。通过核心症状提取,获取了癫痫症状术语3条(表2)。

表2 提取核心症状术语

癫痫语料中存在症状以动词或名词加形容词形式出现,没有修饰副词,如“精神萎靡”“手足蠕动”,本身即为核心症状术语,可直接提取,由此获癫痫症状术语34条(表3)。

2.2 逻辑关系保留

术语间存在一些有描述性逻辑关系[12]的术语,保留其逻辑关系。例如“局限性抽搐”中的“局限性”来修饰限定“抽搐”的范围,而癫痫发作时依据抽搐的部位往往能够反映脑部的病灶起源,对临床诊断具有价值。疼痛是常见自觉症状之一,疼痛的性质特点有助于分析疼痛的病因病机,如术语“头部刺痛”指疼痛尖锐如针刺之感,主因瘀血所致,疼痛位置较多固定;头窜通指疼痛游走不定,多因风邪所致;疼痛性质不同用药也不同,因此保留症状间逻辑关系。由此获癫痫症状术语3条(表4)。

2.3 复合症状拆解

复合症状多由两个症状组成,临床上这些症状涉及多个病性或病位且多不同时出现,因此这部分症状应予以拆分,拆分后的症状,既可以单独统计症状-药物的关联性,也可通过术语关系统计挖掘症状间-药物的关联性。本研究拆解了不同病位或相同病位不同性质的复合症状19 条,形成症状术语38 条见(表5)。如“抽搐吐涎”,实际应用中有很多患者仅出现“抽搐”症状,并不伴有“吐涎”,两者不同时出现频率较大,因此对其进行拆分。对复合的舌诊、脉诊本文以《中医诊断学》中脉象和舌象为依据,以内涵最小单元[13]为原则进行拆解,例如“脉滑数”,滑脉主痰饮、食滞、实热,脉数主热证。每一脉象都有其特殊的临床意义。因此可将其拆解为最小单元。“苔白腻”拆解成“苔白”和“苔腻”,白苔主寒证、表证,腻苔主湿浊、痰饮、食积,本研究拆解了复合舌诊脉诊13条,去重形成术语14条。

表3 直接提取癫痫症状术语

表4 含逻辑关系术语

表5 拆解复合症状术语

2.4 首选术语制定

症状规范化过程会遇到症状名称不统一,一症多名的现象。本研究引入首选术语(preferred terms)的概念,首选术语是指通过规则从语料库中提取的某一概念作为第一选择的术语,亦指当一个概念出现正名和别名时,根据临床用语习惯或使用频率,选其一为首选术语。同义术语(synonym term)为与首选术语概念相同的其它术语[14-15]。同义术语的存在丰富了疾病的语言表达但却不利于学科之间、学术之间的交流,不利于数据的统计与分析,影响了辨证论治和潜方用药的判断,所以有必要厘清同义术语和首选术语。对同义术语的处理,分别查其内涵与外延,并将其映射到相应的首选术语。例如,《中医药学名词》载录的不寐(insomnia)指经常性的睡眠减少,或不易入睡,或睡眠短浅而易醒,甚或彻夜不眠的表现,又称失眠。失眠(insomnia)是指由于各种原因引起的睡眠不足。一般包括睡眠时间、深度及恢复体力的不足,可有入睡困难、频繁醒转和早醒等形式。失眠患者白天出现精神不振、疲乏、易激惹、困倦和情绪不佳等表现。又如牙关紧闭(trismus)指完全不能自行张口,向下用力不能使口张开的临床征象,咀嚼肌僵硬感。见于癫痫、破伤风、颞颌关节等病。口噤(lockjaw)指牙关紧闭,张口困难,口合不来症状。还有一类术语查阅了北京大学中国语言学研究中心、术语在线、wordnet 等均没有释义,按照文献等级、使用频次、用语习惯等,选其一为首选术语,如卒然扑倒、突然跌倒、突然昏倒、突然昏仆,其中突然昏仆在国标《中医临床诊疗术语国家标准(疾病部分)》中被提及,其他三个词均出自行标,则以国标为准则选其为首选术语。在本研究中,首选术语和同义术语有14对见(表6)。

首选术语和同义术语的映射可分为以下两种类型:(1)语义完全一致的古今术语,选取尿黄、大便干燥、牙关紧闭、失眠、胸闷,现今表达为首选术语。(2)语义接近,不影响临床挖掘分析应用的术语,选取喉中痰鸣、吼叫、两目凝视、两目上视、突然昏仆、神疲、头晕、烦躁、精神恍惚,其在参考蓝本中出现频率高的作为首选术语。

表6 首选术语及同义术语

表7 症状术语分类

3 癫痫中医症状术语的分类

经过对癫痫中医症状术语的规范化处理,得到了120 条症状术语,参照症状体征分类框架[16]对其进行分类见(表7)。

4 讨论

中医症状术语是中医辨病论治和辨证论治过程中重要的和主要的依据,其准确性和规范性尤为重要。中医症状规范化历程中,有学者[17-18]提出从中医症状学角度出发明确症状的内涵和外延,对症状进行量化分级等。有学者[19-20]提出从语法学知识,构建中医症状基本词汇表和中医症状术语表达类型。有学者[14,21]依据文献梳理的方法以正名和别名的形式,溯源症状名词的演变。信息学的兴起加速了中医信息化的步伐,有学者[22-24]通过计算技术基于CRFs 模型、LSTM-CRF 模型和模式自动获取等技术方法,对现病史文本症状术语、中医医案症状术语、中医临床症状术语进行识别和抽提。诸多探索促进了中医症状术语规范化的研究进展,但是当进行具体实施操作时,则是仁者见仁智者见智。计算机模型的介入加速了规范化的步伐,但是计算机模型一般仅对单一的文本格式,能获得一个满意的准确率和召回率,当该模型应用于其他文本数据,例如从呼吸科的文本挖掘换到脑病科的文本挖掘,其准确率和召回率未必达标,为了能让计算机技术真正普及到中医术语的规范化应用中,应该在提取原则上达成共识,有统一的标准。

本研究进行癫痫症状术语的整理,其一,现存的几部癫痫规范均为诊疗指南或标准,涉及癫痫症状的术语量少,因各标准发布单位不同、应用目的不一,标准与标准之间存在表达多样性,无法进行数据挖掘分析;其二,现行出版或发布的术语书籍或标准多为诊疗术语,即为症状术语也多涉及各系统、各科的症状,不能准确、成簇、详实的刻画癫痫专病的临床表现;其三,中医症状术语缺乏统一的标准,不能指导癫痫中医症状术语直接进行数据挖掘分析,因此本研究欲从已发布的规范文件入手,构建癫痫中医症状术语字典,通过分析术语的内涵和外延来比较症状术语间的异同,引入首选术语和同义术语的概念,为丰富术语字典提供理论基础,为中医症状规范化从数据挖掘角度提供可借鉴的方法,以期挖掘数据的共性规律与差异性规律;其四,从学科建设角度出发,中医学对癫痫的认识从古至今日趋完善,关于癫痫的现代研究也逐渐增多,但在癫痫专病术语表达应用上却未能实现统一,导致从理论证据向数字证据转化形成障碍,因此癫痫症状术语规范化不仅能为行业内提供通行的术语,也能为术语字典的构建提供良好的开端。其五,癫痫中医症状术语相对于西医症状术语有它独特的特点,国际抗癫痫联盟[25]在2001 年给出了癫痫发作时的症状术语,例如“认知损伤”他们定义为认知性操作减低,包括知觉、注意力、情绪、记忆、执行能力、操作和语言等其中一项或多项,而中医将其描述为“不省人事、昏不识人、意识丧失”等诸如此类的术语来描述。两者之间的差别在于中医善于更形象化,具体化的刻画发作这一过程,西医则在于总结性的概括一系列症状。症状是千变万化的,促就了中医独特的望闻问切和病证结合的诊疗模式,但是临床症状的多样性和复杂性也束缚了中医药的国际化和数量化。故癫痫中医症状术语规范化整理势在必行。

本研究的规范症状术语的语料来源于规范性指南、标准可信度高。按照科技术语命名原则,通过4个术语抽取原则整理癫痫中医症状术语,参照症状体征分类框架[16],从医生客观观察和患者主观感受出发按照望、闻、问、切,将术语框架分为四大类,再按照其中小类对术语进行归类,最终形成癫痫症状术语120条,通过定义每条术语的内涵和外延,从语义关系上辨析得到癫痫症状首选术语106 条,癫痫症状同义术语14条,并建立了首选术语和同义术语之间的映射关系。

临床病历中症状术语更加丰富多样,涉及症状较复杂,多涉及症状属性的描述如,疼痛性质、程度、持续时间、加重缓解因素等,门诊病历数据不仅涉及癫痫的主症、兼症、伴随症状,还涉及其他诊断,这些术语在概念和层次上较标准文件中术语复杂,本研究为使研究结果更加丰富和适用,欲在后期研究中以癫痫病历为语料库在验证本次研究结果的同时增补癫痫症状术语,形成癫痫专病中医症状术语字典,为癫痫数据挖掘分析做好术语标准化的工作。

猜你喜欢
同义语料术语
祈使句小练
面向低资源神经机器翻译的回译方法
until用法巩固精练
濒危语言与汉语平行语料库动态构建技术研究
国内外语用学实证研究比较:语料类型与收集方法
有感于几个术语的定名与应用
从术语学基本模型的演变看术语学的发展趋势
英语教学中真实语料的运用
同义句转换专项练习50题
同义句转换专练