鼾声的基频分布与SAHS的关联性

2019-05-21 06:16侯丽敏施晓宇刘焕成
声学技术 2019年2期
关键词:软腭鼾声基频

侯丽敏,施晓宇,童 超,刘焕成

(上海大学通信与信息工程学院,上海 200444)

0 引 言

睡眠呼吸暂停低通气综合征(Sleep Apnea Hypopnea Syndrome,SAHS)是一种患病率高,具有潜在危险的疾病[1]。在我国估计患病率达3.5%,约有五千万的SAHS患者[2]。随着医疗辅助诊断和居家医疗的发展,便捷的鼾症检测仪成为国内外的研究热点[3]。与医院临床诊断使用的多导睡眠监测仪(Polysomnography,PSG)不同的是,便携式鼾症自动诊断系统仅通过采集含有丰富病理信息的鼾声信号来分析患者的鼾声声学特性,从而实现对SAHS的辅助诊断[4-5]。

鼾声是SAHS最为明显的症状,易于采集[6]。基频是鼾声声学特性研究中基本且重要的特征之一,已被大量应用在鼾声的检测和辅助诊断中[7]。文献[8]用基频以及基频的相关特征对整夜鼾声的录音自动检测鼾声和非鼾声。文献[9]用鼾声响度、基频和频谱等多个特征,基于贝叶斯分类器构建的核密度模型区分SAHS患者和单纯打鼾者。文献[10]中研究者计算鼾声的基频密度等特征参数,用多元回归法判断SAHS病症的严重程度。

大部分研究中用的是欧美人鼾声的录音,作为不同的人种,中国汉族人与西方人的身体外形存在较大差异,本文针对汉族人的鼾声录音做了详细的分析研究。用改进的线性预测残差倒谱法提取鼾声的基频,对93名受试者的鼾声做了分析。实验结果表明,鼾声基频分布特性与SAHS的严重程度存在着密切的关联。SAHS严重程度不同,鼾声的分布不同,基频轨迹的抖动大小也不同。本研究对互联网时代的居家医疗和筛查有广泛的应用价值。

1 鼾声产生机理和基频计算

1.1 鼾声的发声原理

打鼾者的上气道中某个部位或多个部位比正常人狭窄。在清醒状态下上气道肌肉收缩使气道通畅。但是在夜间睡眠状态时,神经兴奋性下降,肌肉松弛,上气道坍塌,阻碍气流的通过。当气流累积到一定程度就会冲开阻塞部位,引起局部振动,从而导致鼾声的产生。图1为鼾声产生机理示意图。鼾声来源于阻塞位置振动的准周期信号和呼吸气流引起的噪声信号叠加,共鸣系统指上气道或部分上气道,因为阻塞部位可能将上气道分隔成两部分。

图1 鼾声的产生机理图Fig.1 Mechanism diagram of snore production

每个受试者整夜打鼾中既有正常鼾声又有发生睡眠呼吸暂停之后引发的SAHS鼾声,这里简称为简单鼾声(simple snores,SIMP)和SAHS鼾声,波形如图2所示。图2(a)中鼾声节奏均匀,每个完整鼾声片段幅值相当,持续时间约3 s,这样的鼾声尽管声量较大,但没有出现呼吸暂停,也不会伴有血氧下降,是非SAHS的,图2(b)是图2(a)中红色虚线框出的单个简单鼾声片段,称为简单鼾声;而图2(c)的鼾声分布大部分无规则,幅值有大有小,持续时间有长有短。其中有一段持续时间大于10 s的呼吸暂停,用天蓝色虚线标注开始时间和结束时间,图2(c)中红色虚线代表SAHS鼾声,图2(d)是图2(c)的局部时域波形图,其中绿色线标注出吸气段,黑色线标注出呼气段,两者之间是过渡段。

无论SIMP鼾声还是SAHS鼾声,一个完整的打鼾事件包含三个部分:吸气段、呼气段和他们之间的过渡段。在吸气段,气流努力冲破阻塞部分,造成阻塞部位的振动,振动频率则为鼾声的基频。这段时间的鼾声信号大部分具有准周期性,与浊音类似,幅度高。在过渡段,进行体内的气流交换, 此时的声音信号微弱,类似于静音段。在呼气段,气道一般相对通畅,此时气流噪声起主要作用,声音波形的幅度小,只有少数具有准周期性。因此,本文研究分析以吸气段为主的鼾声的声学特性。

图2 鼾声时域波形图Fig.2 The time domain waveforms of snoring sounds

1.2 实验数据

录音环境为上海市第六人民医院耳鼻喉科睡眠实验室。录音设备:Dell Inspiration 570,声卡型号:Creative Audigy 4 Value,麦克风:Sony ECMC10,采样频率:8 kHz,采样精度:16 bit。PSG型号为伟康Alice4。鼾声录音与PSG诊断同步进行[5]。

研究对象:由上海市第六人民医院耳鼻喉科提供的接收PSG诊断的受试者。每人的PSG报告给出了呼吸暂停低通气指数(Apnea Hypopnea Index,AHI)等相关诊断结果。AHI的含义为平均每小时呼吸暂停低通气的次数,单位:次/h。AHI值对应着SAHS严重程度,共分为四种不同的级别:AHI<5为单纯打鼾者(Non-SAHS,N),5≤AHI≤15为轻度SAHS患者(Mild-SAHS,L),15<AHI≤30为中度SAHS患者(Moderate-SAHS,M),AHI>30为重度SAHS患者(Severe-SAHS,S)。

本文训练数据集包含单纯打鼾N型10人,轻度L型23人,中度M型24人,重度S型36人,共计93人,受试者的信息如表1所示。对照着PSG人工切出简单鼾声和SAHS鼾声,共计3 995个片段,如表1中最后两列。其中,简单鼾声共2 168个片段,SAHS鼾声共1 847个片段。

表1 训练数据信息Table 1 General information of training data

1.3 基频计算

为了消除上气道共鸣系统的影响,更好地提取声源信号,采用两次线性预测法,用逆滤波得到信号的残差,即声源信号[11]。然后对预测误差信号进行倒谱计算和峰值检测,从倒谱域中寻找最大值,最大值对应的位置即为基音周期。具体的计算基频过程如图3所示。鼾声信号s(n)经预处理(分帧、端点检测)、线性预测编码(Linear Prediction Coding,LPC)逆滤波后得到初始残差信号e1(n),经过截止频率为1 kHz的低通滤波器后再经LPC逆滤波后得到声源信号e2(n),进行快速傅里叶变换(Fast Fourier Transform,FFT),得到频谱信号Y(ω),对其幅值取对数后再进行傅里叶逆变换得到倒谱信号c(n),最后进行峰值检测即可得到基频值F0。这种两次线性预测倒谱法,简称DLPCE(Double Linear Prediction And Cepstrum,DLPCE)法。

图3 DLPCE计算基频流程图Fig.3 Flowchart of pitch calculation by DLPCE

为了说明DLPCE法对鼾声基频计算的准确性以及确定合适的帧长,选取20个准周期性明显的鼾声片段,分别用传统的倒谱法(Cepstrim Method,CEP)、线性预测倒谱法(Linear Prediction and Cepstrum,LPCE)以及DLPCE法计算鼾声的基频。

计算鼾声基频时,有两种错误类型:一是受声道响应的影响,峰值检测出的最大值在倒谱原点附近,导致得出的基频值大于实际值,此类错误称为甲类错误。第二种是受倒谱二次谐波的影响,估算结果为实际基音周期的二倍,导致基频值是实际基频值的一半,即半倍频。此类错误称为乙类错误。

鼾声的变化速率不及语音快,短时分析帧长需重新设置。设置帧长分别为40、60、80、100 ms和120 ms,帧移设为帧长的30%,分别统计三种算法不同帧长计算出基频轨迹中错误的帧数占所有鼾声片段帧数的比例,统计结果如图4所示。

图4 估计基频的错误比例Fig.4 Error proportion of pitch estimation

由图4可见:DLPCE法的甲类错误小于CEP法和LPCE法。这是由于使用DLPCE法计算基频时,两次LPC处理明显消弱了上气道的影响;三种算法的乙类错误相当。因此,利用DLPCE法计算鼾声的基频要优于传统的LPCE法和CEP法。

帧长的选取对错误率的影响很大,如图4所示。当帧长选取过短时,会由于帧内周期信号太少导致基频判断不准确,当帧长选取过长时,又会由于帧内周期信号过多而导致倒谱二次谐波影响加重,使乙类错误大幅增加。选取帧长为80 ms更适合于鼾声基频的分析。以下的分析帧长选取为80 ms。

2 鼾声基频统计特性

2.1 鼾声分类

要研究鼾声的基频,首先要对鼾声的时域波形有清楚的认识。从鼾声的时域波形是否有准周期的角度,本文将其分为三类。时域波形有一个或一个以上较明显的准周期为Ⅰ型,时域波形中一部分有准周期、一部分无准周期为Ⅱ型,时域波形无明显准周期为Ⅲ型。下面分别针对这三类鼾声进行分析。Ⅰ型鼾声为时域波形有一个或多个较明显的准周期的鼾声,如图5(a)所示,其计算所得的基频轨迹如图5(b)所示。Ⅱ型鼾声为时域波形一部分有准周期、一部分无准周期的鼾声,如图5(c)所示,基频轨迹如图5(d)所示。后部分的鼾声的时域波形杂乱,没有明显的重复性。Ⅲ型鼾声为时域波形无明显的准周期的鼾声,如图5(e)所示,基频轨迹如图5(f)所示。该类型鼾声的时域波形有较多的快变信息,时域波形没有明显的重复性,只有随机性较强的紊乱波形。

图5 三种类型的鼾声的波形和基频轨迹Fig.5 Waveforms and pitch contours of three types of snores

2.2 三类鼾声的分布

用1.3中的两次LPCE法估算三类鼾声片段的基频和基频轨迹。Ⅰ型鼾声计算出的基频轨迹较为准确,甲类和乙类错误甚少,如图5(b)所示。而对于Ⅱ型和Ⅲ型鼾声,计算其无准周期的部分时,由于信号本身无周期,导致计算出的基频轨迹抖动幅度大且频繁,如图5(d)和图5(f)所示。

根据估计的鼾声基频轨迹的特点,将基频轨迹中连续4帧基频值相差不超过10 Hz的情况判为存在准周期。若存在准周期的帧数占鼾声片段总帧数的占比超过70%,则判为Ⅰ型鼾声,若存在准周期且占比未超过70%,则判为Ⅱ型鼾声,若不存在准周期,则判为Ⅲ型鼾声。统计出不同严重程度患者的SIMP和SAHS鼾声中三种类型鼾声的分布情况,如图6所示。图6(a)~6(d)表示不同严重程度鼾症中SIMP鼾声包含三种类型鼾声的比例。图6(e)~6(h),表示不同严重程度鼾症中SAHS鼾声包含三种类型鼾声的比例。

统计结果表明:单纯打鼾和轻度SAHS患者的鼾声以I型为主,图6(a)、6(b)中I型占80%左右,图6(e)、6(f)中占70%左右,Ⅱ型、Ⅲ型鼾声占比很少。而中度和重度SAHS患者的鼾声中Ⅱ型、Ⅲ型鼾声占比明显增多,M-SIMP和S-SIMP鼾声中占比增大到30%左右,M-SAHS和S-SAHS鼾声中占比增大到45%左右,如图6(c)、6(d)和图6(g)、6(h)所示。Ⅲ型鼾声在SAHS鼾声中的占比比在SIMP鼾声中的占比也增加明显,如图6(e)、6(f)和图6(g)、6(h)所示,在M-SAHS和S-SAHS鼾声中占比增大到25%左右。

图6 三类鼾声在不同SAHS严重程度患者中的占比Fig.6 The proportions of the three types of snores in patients with different severities of SAHS

这些分布表明:SIMP鼾声的准周期性相对于SAHS鼾声更明显;随着SAHS病症的加重,无论SIMP鼾声还是SAHS鼾声,更多鼾声的准周期性消失,而噪声信号增多。

2.3 利用基频特征诊断SAHS病症

记基频差分值dPi为鼾声的基频轨迹中,前一帧基频值Pi减后一帧基频值Pi+1的绝对值,即:

由于SAHS病理特性较为复杂,仅靠鼾声的基频特征无法对病症的严重程度有效区分,因此本文在提取基频的差分值dP作为特征的同时,提取Mel频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)特征作为实验的特征,记为dPMFCC。

本文选取与表1不重叠的另外120位受试者的整夜录音作为测试数据。测试组受试者的信息见表2。

表2 测试数据信息及测试结果Table 2 General information of test data and the test results

实验采用高斯混合模型(Gaussian Mixture Model,GMM)对表1中8类不同严重程度的SIMP和SAHS鼾声的特征分别建模。对测试者的整晚录音自动检测出鼾声片段,用鼾声特有的节律做进一步约束,得到候选的呼吸事件,再通过高斯模型分析判断是否为呼吸事件。按照式(2)估算出每个人的AHIdPMFCC值(次/h)[5]。

本文方法获得的AHIdPMFCC值与PSG 诊断结果AHIPSG值对比效果如图7所示,图中中心绿色实线表示同一性,绿色虚线表示95% 的置信区间。根据诊断一致性定义:若AHIPSG与AHIdPMFCC两者均大于40,则为一致;若AHIPSG<40,两者的差即AHIPSG-AHIdPMFCC<10,为一致;若两者的差>10,为欠估;若两者的差<-10,为过估[9]。本文方法与黄金标准PSG的一致性为90.8%(109/120),欠估率为4.2%,过估率为5%。说明本文方法与临床标准有较好的一致性。

为说明基频特征对提升SAHS病症诊断严重程度的有效性,本文利用dPMFCC与单纯使用MFCC特征进行对比实验,实验结果见表2中的MFCC正确率与dPMFCC正确率两栏,正确率的得出是由估计正确的人数与该严重程度人数相除取得的。可以发现,基频特征的引入有效提升了轻度患者的诊断效果,正确率从60%上升为76%。结果表明,利用dPMFCC作为特征判断鼾症严重程度的准确率为85.8%(103/120),优于将MFCC作为特征的80%(96/120)的准确率。

3 分析及讨论

图7 AHIPSG与AHIdPMFCC对比图Fig.7 Comparative chart of AHIPSG and AHIdPMFCC

本文按照时域波形的准周期性把鼾声划分为三类,与文献[12]中结果是一致的。文献发现软腭产生的鼾声是由一些重复出现且有相似波形的脉冲信号组成的,而舌根产生的鼾声比较密集、杂乱,没有明显的重复性。因此,上气道阻塞的部位不同,引起的鼾声信号时域波形也不同。文献[13]发现单纯打鼾者鼾声频域曲线表现出明显的基频-谐波结构,而SAHS患者鼾声的时域曲线表现为多个振幅、间隔不规则的复合波,频域曲线中无明显的基频-谐波结构。文献[14]用Praat语音分析软件对鼾声的基频值做了估计,单纯打鼾者有明显的基频,而阻塞性睡眠呼吸暂停低通气综合征(Obstructive Sleep Apnea Hypopnea Syndrome,OSAHS)组的鼾声的基频分布离散,部分OSAHS鼾声基频不能测出。本文观察的鼾声时域波形和基频与文献[13-14]是一致的。

文献[15]采用中心削波自相关法计算鼾声基频,计算出鼾声的基音周期的范围为8~40 ms(25~125 Hz)。文献[16]采用倒谱法计算得到的基频范围为10~35 ms(28~100 Hz),由于鼾声的时变节奏没有语音快,对鼾声短时分析帧长都大于语音信号的帧长,本文也如此。本文的基频值分布范围为27~286 Hz,大于这两篇文献的结果。这可能与人种有关,亚洲人体型小于欧洲人,上气道结构也会正比于体型。基频值与体积或重量成反比。

来自日本的研究文献[17]对74名患者进行测试,运用上呼吸道测压的方法测得鼾声产生的振动部位有:软腭振动、扁桃体/舌根振动、软腭和扁桃体/舌根混合振动、咽喉振动,用FFT分析仪计算出软腭类型鼾声的基频为(102.8±34.9)Hz,扁桃体/舌根类型鼾声的基频为(331.7±144.8)Hz,软腭和扁桃体/舌根混合类型鼾声的基频为(115.7±58.9)Hz,咽喉类型鼾声的基频为250 Hz左右。本文对107名受试者的五千多个鼾声片段做了基频计算,基频分布的范围27~286 Hz,与文献[18]的结果是一致的。

文献[18]用睡眠鼻内窥镜检测法对54名成年打鼾者的鼾声发声部位进行监测,观察到打鼾时咽部振动的主要形式有:①软腭或悬雍垂扑动,②扁桃体振动,③会厌软骨振动,④舌根振动。其中单纯舌根振动占8%,单纯会厌振动占2%,扁桃体、会厌、舌根共同振动产生的鼾声占20%,而软腭或软腭与其他部位共同振动占70%。图6中鼾声的基频分布与文献[18]的结果一致,说明中度和重度SAHS患者的鼾声基频包含的软腭或软腭与其它部位共同发生阻塞的占70%左右(Ⅰ、Ⅱ型),舌根及扁桃体、会厌、舌根共同发生阻塞占30%左右(Ⅲ型)。

本文使用的dPMFCC特征联合声源特征中的基频特征和上气道特征中的MFCC特征对鼾症严重程度实现有效分类。对单纯打鼾型和重度鼾症判断的准确率为100%,而对轻度和中度鼾症判断的正确率不够理想,可能是这两类患者的鼾症的阻塞部位和上气道状态不够稳定,导致SIMP和SAHS鼾声的基频和MFCC特征的差异性不够凸显,从而引起较多的误判。

4 结 论

本文对鼾声的基频分布做了较为详细的统计分析。鼾声基频值主要取决于上气道发生阻塞的部位和程度,鼾声基频值的分布为27~286 Hz。鼾声基频抖动及相关特性可以一定程度上反映出SAHS病症严重程度。本文将基频特征与MFCC特征结合对打鼾者的SAHS严重程度进行估计,正确率为85.5%。鼾声基频抖动及相关特性可作为鉴别SAHS病症严重程度的参数之一。本文的研究成果推动了利用鼾声进行SAHS诊断的居家健康医疗的应用。

致谢感谢上海交通大学附属上海第六人民医院耳鼻喉科的支持。

猜你喜欢
软腭鼾声基频
犬软腭过长矫正术初探
语音同一认定中音段长度对基频分析的影响
Sommerlad-Furlow 法修复不完全性腭裂软腭长度变化的研究
基于时域的基频感知语音分离方法∗
汉藏语言软腭擦音的主要来源
桥面铺装层对中小跨径桥梁基频影响分析
爸爸的鼾声
阻塞性睡眠呼吸暂停低通气综合征患者软腭形态的动态磁共振研究
45000kHz基频晶体滤波器
如雷鼾声惊醒“名校梦”,15岁少年不堪重负卧轨自杀