声学技术杂志近十年出版发文量:
作者:叶自强;彭健新
作者单位:华南理工大学
关键词:阻塞性睡眠呼吸暂停低通气综合征;鼾声;呼吸暂停低通气指数;声学特征;梯度提升回归
摘要:打鼾是阻塞性睡眠呼吸暂停低通气综合征 (obstructivesleepapneahypopneasyndrome,OSAHS) 患者最典型的 症状,患者鼾声中含有重要诊断信息。文章从 OSAHS 患者整晚鼾声中提取了梅尔倒谱系数、线性预测系数、谱熵 等声学特征参数,通过相关分析研究患者鼾声的特征参数与呼吸暂停低通气指数 (apneahypopneaindex,AHI) 的相关 性,探讨基于梯度提升回归的 AHI 预测,并与其他模型进行对比。结果表明:谱熵和梅尔倒谱系数的某些维度与 AHI 具有较强的相关性,其相关系数大于 0.6。与线性模型相比,梯度提升回归模型表现出更好的预测效果,其预 测的 AHI 与参考测量值之间的相关性高,相关系数为 0.813。结果表明,基于鼾声的声学特征预测 OSAHS 患者的 AHI 是可行的,对 OSAHS 的诊断具有较好的参考价值。
0引言
阻塞性睡眠呼吸暂停低通气综合征 (obstructive sleepapneahypopneasyndrome,OSAHS) 是一种日 常生活中常见的睡眠呼吸障碍疾病,患者的症状为 睡眠过程中上呼吸道部分或完全塌陷导致低通气或 呼吸暂停,并伴有频发性血氧饱和度降低及睡眠结 构混乱等现象[1]。多导睡眠图 (polysomnography, PSG) 是临床诊断 OSAHS 的金标准[2],但其昂贵的 检测费用、复杂的检测过程和较低的普及率等导致 大量潜在的 OSAHS 患者无法得到及时诊断和治 疗[3-4]。因此研究一种低成本、易操作的 OSAHS 诊 断方法是当前的一个研究热点。
打鼾是 OSHAS 患者最典型的临床症状之一, 研究表明鼾声与 OSAHS 存在着紧密的联系[5]。呼 吸暂停低通气指数 (apneahypopneaindex,AHI) 是 衡量 OSAHS 严重程度的评估指标,定义为患者睡 眠期间平均每小时呼吸暂停事件与低通气事件的次 数之和。已有研究利用患者鼾声预测 AHI [6-9],以辅助诊断 OSAHS。Ding 等[6]提出了一种基于预训 练的 VGG19 和长短期记忆网络融合模型来区分正 常鼾声和呼吸紊乱相关的鼾声,并检测出呼吸紊乱 事件以计算 AHI。侯丽敏等[7]采用高斯混合模型和 基频特征对正常鼾声和 OSAHS 鼾声分别建模,然 后判断呼吸紊乱事件并计算 AHI。上述研究基于 呼吸紊乱事件前后鼾声特性对 AHI 进行预测,依 赖于对呼吸紊乱事件的准确判别。Kim 等[8]对受试 者整晚睡眠录音信号进行分析,使用随机森林回归 和多种时频域特征构建 AHI 预测模型。Xie 等[9]提 出了鼾声变异率来描述整晚鼾声的能量变化,采 用 XGBoost 回归预测 AHI。此类方法基于受试者 整晚鼾声声学特征预测 AHI,无需识别呼吸紊乱 事件及其相关鼾声,简化了前期对鼾声的预处理。 但已有研究中,重度 OSAHS 患者数量偏少,使其 预测结果的应用受限。本文通过对 102 名受试者整 晚睡眠鼾声进行分析,提取了多种鼾声声学特征并 评估其参数与 AHI 的相关性,分别利用梯度提升 回归 (gradientboostingregression,GBR)、支持向量 回归 (support vectorregression, SVR) 和线性回归 (linear regression, LR) 方 法 预 测 OSAHS 患 者 的 A HI 值,为临床提供诊断 OSAHS 提供参考。
1基于鼾声分析的 AHI 预测模型
1.1鼾声声学特征提取
鼾声是由上呼吸道组织振动产生的,携带了上 呼吸道结构的重要信息[10]。研究表明鼾声的频域特 征比时域特征包含更多有效的信息[11]。本文首先将 受试者整晚录音中的所有鼾声片段分割成帧,设置 帧长为 20ms,帧移为 50%,然后对每一帧计算其 特征参数,并按时序排列得到特征矩阵,行数代表 特征数量,列数代表时间帧数。最后按帧计算特征 值的最大值、最小值、均值和方差,拼接后得到代 表受试者整晚睡眠鼾声信息的特征向量。文中共提 取了 10 种描述鼾声的声学特征,其特征集维度为 244,计算特征参数与 AHI 的皮尔森 (Pearson) 相 关系数 (Pearsoncorrelationcoefficient,PCC) 以评估 其相关性。表 1 为所提取的声学特征以及相应维 度,包括梅尔倒谱系数 (Mel-frequency cepstrum coefficients, MFCC) [12]、 线 性 预 测 系 数 (linear prediction coefficients, LPC) [12]、 谱 熵 (spectral entropy,SE) [11]、800Hz 功率比 (powerratio800Hz, PR800) [13]、 基 频 (pitch) [14]、 共 振 峰 (formant) [14]、 最大功率比 (maximumpowerratio,MPR) [11]、频谱 质心 (spectralcentroid,SC) [11]、频谱平坦度 (spectral flatness,SF) [15]、频谱滚降点 (spectralroll-off,SR) [11]。
1.2回归模型
为了比较不同模型对 AHI 的预测能力,分别 利用 LR、SVR 和 GBR 三种模型构建 AHI 回归预 测模型。LR 模型是通过寻找最佳拟合直线,使得 预测值与观测值之间的误差平方和最小,一般使用 最小二乘法求取最优解。该模型简单高效,能根据 权重系数直接判断每个特征对目标值的影响程度, 可解释性较强。
SVR 模型的拟合目标是找到一个能够最大化 边界区域内样本点与回归函数之间间隔的曲线,同 时限制误差不超过预设的阈值。SVR 模型与 LR 模 型相比,其决策边界面是一个区间,样本只要落入 决策区间范围内就认为没有误差,不计算损失函 数,使得模型具备一定的泛化性和鲁棒性。
GBR 模型是一种基于决策树的集成学习模 型,通过迭代训练一个序列化的决策树模型来逐步 减小预测误差。GBR 模型中每一棵树都是弱预测 模型,其预测结果只能解释部分数据的变化。在每 轮迭代中,模型基于前面所有树的残差来构建当前 树,然后将新模型的预测值与原始目标变量之间的 误差进行最小化,从而改进预测能力。
三种模型参数设置如下:LR 模型参数设置为 默认;SVR 模型设置核函数为 linear,惩罚因子为 10.0,其余参数为默认;GBR 模型设置决策树数 量为 100,最大深度为 3,学习率为 0.1,其余参数 为默认。实验中使用的硬件设备为 CPUAMD Ryzen94900H,软件环境为 Matlab2021a、Python 3 .8 和 Sklearn0.24.1。
1.3回归模型评估指标
y yˆ µ Pearson 相关系数反映了自变量和变量之间线 性相关性的强弱程度。假设测试集样本的真实标签 为 ,预测标签为 ,测试集真实值的均值为 ,测试集预测值的均值为µˆ。计算得到测试集真实标签 与预测标签的皮尔森相关系数为
平均绝对误差 (meanabsoluteerror,MAE) 表示 预测值与真实值之间的绝对误差的均值,所有个体 差异在平均值上的权重大小都相等。均方根误差 (rootmeansquareerror,RMSE) 表示预测值和观测 值之间差异的样本标准差,对高残差给予更多的惩 罚 ,表示样本的离散程度。
2数据采集与实验设置
本文选取来自广州医科大学附属第一医院和开 源数据集 PSG-Audio 的受试者共 102 例[2]。在受试 者进行多导睡眠图 (PSG)(伟康Alice-5) 监测时,将 电容式测量传声器 (BehringerECM8000) 放置于受 试者口鼻上方约 1m 处,同步录制鼾声。采样频 率和采样精度分别为 48kHz 和 24bit,时长为 6~ 8h。后续从采集的受试者整晚睡眠录音中提取鼾 声片段,并在耳鼻喉科专家的指导下对所有的鼾声 片段进行人工核对以保证数据的准确性。在本研究 中采集到的鼾声总数为 101283 个。受试者的统计 信 息 如表 2 所 示 。 临 床 诊 断 根 据 AHI 值 将 OSAHS 患者划分为 4 类:正常打鼾者 (AHI、 轻度 OSAHS 患者 (5 AHI、中度 OSAHS 患 者 (15 AHI和重度 OSAHS 患者 (AHI 30)。
为了充分利用实验数据,采用五折交叉验证 训 练 回 归 模 型 并 验 证 。将 102 名 受 试 者 的 共 101283 个鼾声片段均分为 5 组不相交的子集,其 中 4 组分别为 20 人,剩余一组为 22 人。随机挑选 一组受试者的整晚鼾声数据作为验证集,其余作为 训练集构建回归模型,该迭代过程重复 5 次,保证 每组受试者的鼾声数据有且仅有一次机会作为验证 集。最后将这 5 次预测结果进行合并以遍历数据 集,获得全体受试者的 AHI 预测值,以评估模型 的 预测性能。
3特征评估与 AHI 预测结果
3.1特征相关性评估结果
图 1 为 PCC 排序前 10 的特征类别,分别是 SE、MFCC、LPC、PR800、MPR、SC 以及 SF 的 统计量,PCC 均大于 0.4 且显著性水平 P, 这表明这些特征参数与 AHI 之间具有较好的相关 性。图 1 中纵坐标物理量下标 mean 表示均值, max 表示最大值,min 表示最小值。其中 PCC 较 大的两个特征 (SE 均值、MFCC14 的最大值) 与 AHI 的相关性更强,其 PCC 大于 0.6。Sun 等[16]的 研究中提到 OSAHS 患者的 SE 均值大于正常打鼾 者,表明 AHI 越高的受试者,其 SE 均值也越高。 这与图 1 中 SE 均值与 AHI 呈现较强的正相关这一 结果吻合。
3.2AHI 预测结果
AHIPSG AHIPSG 表 3 给出了三种回归模型下 AHI 的预测结 果,LR 和 SVR 模型下 AHI 的预测值与 PSG 测量 值 之 间 的 PCC 分 别 为 0.712 和 0.727, MAE 分别为 15.67 和 15.47,表明 LR 模型和线性 核 SVR 模型可以较好地拟合鼾声特征与 AHI 之间 的线性关系。SVR 模型对容忍偏差内的样本点不 计算损失函数,相较于 LR 模型更能降低异常值对 模型的影响。虽然两者的预测效果差距不大,但 SVR 模型更具有稳定性和鲁棒性。GBR 模型 AHI 预测值与测量值 之间的 PCC 达 0.813,MAE为 14.15。对比 LR 和 SVR 模型,GBR 模型预测 的 AHI 相关性最高,与目标值之间的偏差也最 小。这是由于 GBR 模型通过迭代训练多个弱学习 器,并组合成一个强大的集成模型,使得 GBR 模 型的预测能力和泛化能力均优于 LR 和 SVR 模型。
表 4 给出了三种模型下 4 个 AHI 区间内患者 的 AHI 预测结果。LR 模型和 SVR 模型对正常和 轻度患者的 AHI 预测均值偏离参考区间,对中度 和重度患者的预测均值在参考区间内。GBR 模型 AHIPSG 对正常、轻度、中度和重度 OSAHS 患者的 AHI 预测均值分别为 7.19、14.26、27.27 和 43.97,对 OSAHS 患者能相对准确地预测其 AHI。与各个区 间内 均值的绝对误差分别为 4.03、3.95、 6.25 和 18.23,正常打鼾者、轻度和中度 OSAHS 患者的 AHI 预测均值误差为 4~7,这表明采用 GBR 模型能较准确地预测非重度患者的 AHI 值, 极个别重度患者的 AHI 预测值不在 PSG 结果对应 区间内,整体预测结果略偏低。
图 2 给 出 了 采 用 GBR 模 型 AHI 预 测 值 与 AHIPSG 测量值之间的对应关系散点图。当 AHI 小于 50 时,GBR 模型预测得到的受试者的 AHI 与 PSG 测量得到 AHI 之间的差异较小。但随着受 试者的 AHI 增加,GBR 模型预测的 AHI 偏小, 与 PSG 测量得到 AHI 之间的偏离趋势逐渐变大, 这与 Kim 等[8]和 Xie 等[9]等得到的实验结果一致。 对比 PSG 记录和鼾声录音数据发现,存在呼吸紊 乱事件没有鼾声的情形和呼吸紊乱事件中鼾声过于 微弱导致没有被检测出鼾声片段,加上重度患者发 生呼吸紊乱事件的频率较高,这些情形会导致低估 重度 OSAHS 患者的 AHI。
4讨论
上述研究结果表明,根据受试者整晚睡眠鼾声 声学特征参数预测 OSAHS 患者的 AHI 与采用 PSG 方法得到的 AHI 具有较好的相关性,验证了 方法的可行性。Ding 等[6]和侯丽敏等[7]的实验对普 通鼾声与呼吸紊乱事件相关的鼾声进行分类,利用 相关鼾声建模来判断呼吸紊乱事件并计算 AHI。 这种方法依赖于相关鼾声的识别,所有的鼾声片段 都要经过分类模型筛选出病态鼾声。当鼾声数量较 大时,将导致计算效率低、开销大的问题。本文直 接分析受试者整晚鼾声的声学特征信息与 AHI 的 关系,并构建基于回归算法的 AHI 预测模型,省 去繁琐的呼吸紊乱事件的识别。Kim 等[8]的实验 中,分析了受试者整晚睡眠呼吸声特征与 AHI 的 关系,使用随机森林回归训练 AHI 预测模型并测 试,相关系数达到 0.83。本文直接从受试者整晚睡 眠录音中提取鼾声片段,剔除了环境噪声等其他非 鼾声的干扰,保证了预测模型可靠性。Xie 等[9]提 出了鼾声变异率来描述整晚鼾声能量的动态特征, 并引入了身体质量指数、年龄等患者统计信息作 为 AHI 预测的特征变量,使用 XGBoost 回归预测 AHI 的相关系数 PCC 达到了 0.786,平均绝对误差 为 7.26。但其数据集中 AHI的受试者占比为 81%,AHI的受试者占比为 58%。而临床诊断 时重度患者的占比往往更多,本文使用的数据分布 更接近临床实际情况。由于缺乏大数据量的公开数 据集,基于整晚鼾声特征的 AHI 预测研究受到样 本数量少及分布不均衡的限制,其预测精度还有较 大 的提升潜力。
5结论
本文探讨了基于受试者整晚睡眠鼾声特征的AHI 回归预测模型,从 OSAHS 患者整晚睡眠鼾声 中提取了 MFCC、LPC、谱熵等声学特征参数,采 用 Pearson 相关评估声学特征,并对比了 GBR、 LR 和 SVR 三种模型的预测性能。结果显示 SE 和 MFCC 的统计量与 AHI 之间具有较好的相关性。 相较于单一模型,集成模型 GBR 预测 OSAHS 患 者的 AHI 效果更好,其 PCC 为 0.813,MAE 为 14.15。这表明通过 MFCC、SE 等声学特征参数结 合 GBR 模型预测 OSAHS 患者的 AHI 是可行的, 对临床借助鼾声辅助诊断 OSAHS 具有重要参考意 义。下一步的研究将引入更多的受试者和更多相关 的特征训练模型,进一步提升模型的预测性能。