声学技术杂志投稿须知
征稿范围
超声学、生物医学超声学、电声学、水声学、海洋声学技术、建筑声学、噪声控制、生理和心理声学、声信号处理、换能器和声系统等。
稿件形式为综述、研究论文和研究简报。来稿应观点明确,论据充分,数据可靠,层次分明,文理通顺。所引用的参考文献建议为5年内发表的文献,行业内的经典文献除外。
投稿与查询
投稿作者必须遵守学术规范和准则,稿件内容应为作者独立取得的原创性研究成果,未在国内外公开发表过。请勿一稿多投,勿含涉密内容。注:本刊发表的论文要求具有首发权,论文主要内容已在会议论文集、预印本网站等公开发表的稿件本刊不予接收。
本刊只接收在线投稿,不受理纸质稿或邮箱投稿。作者可通过本刊网站投审稿专区进行在线注册和投稿。作者注册时请提供真实姓名、工作单位、详细通讯地址及邮编、联系电话、电子邮箱等。
作者可登录投审稿系统查询稿件评审进度,也可通过关注《声学技术》官方微信公众号(微信号:Technical_Acoustics)进行查询。
投稿准备
投稿需附作者本人签名的《论文著作权转让及诚信声明》(可在网站“下载中心”下载),涉密单位投稿需提交由单位相关部门盖章的论文不涉密证明。若研究涉及动物或人类受试实验,请提交相关伦理审查证明材料。办理完成后请将原件寄至《声学技术》编辑部。
写作要求
请严格按照《声学技术》的投稿模版进行写作,以免延误稿件的审理和出版。
要求来稿内容真实、结构完整、层次分明、文字简练。论文和快报都应以描述自己的创造性工作成果为主,公式推导从简,一般文献中已有的数学推导过程一律不必重复。
论文和快报均应含中英文题名、摘要、关键词,并提供中图分类号。题名要求简明准确,一般不宜使用缩略词。摘要仅浓缩作者原创工作,概述论文的研究目的、方法、结果和结论。关键词应能准确反映论文的主要研究内容。
引言部分应说明研究的背景,介绍和评述本领域的研究进展以及存在的问题,以点明论文的选题意义,并阐述论文的创新点。
名词术语、量和单位等一律使用国家标准。量的符号应使用拉丁字母或希腊字母,文中第一次出现时请给出其物理含义。一般变量使用斜体,矢量、矩阵、张量使用黑斜体,特殊函数使用正体,物理量单位使用正体。英文缩略术语在文中第一次出现时,应同时给出中英文全称。
图和表均应具有自明性,图题、表题务必简明扼要。图片应清晰、细节准确、比例适中。表格设计应科学合理,不建议使用复杂表格。
顺序标引文献,参考文献的选择应遵循“关键、最新、必要”原则,尊重他人研究成果,切勿有意忽略中文文献。未公开发表的资料一般不宜引用。文献著录规则请参考国家标准GB 7714—2015和《声学技术》现刊样例。
版权、出版流程
来稿经审理决定录用后,进入编辑出版流程,作者需提交符合本刊要求的稿件和图片等文件。编辑部有权对录用稿件作必要的技术性和文字性修改。
编辑定稿后,请作者配合自校。
论文一经刊载,本刊将按规定向作者收取适当的论文出版费用,并一次性致送稿酬(含转让费)、当期刊物2本。
进入期刊首页
作者:叶自强;彭健新
作者单位:华南理工大学
关键词:阻塞性睡眠呼吸暂停低通气综合征;鼾声;呼吸暂停低通气指数;声学特征;梯度提升回归
摘要:打鼾是阻塞性睡眠呼吸暂停低通气综合征 (obstructivesleepapneahypopneasyndrome,OSAHS) 患者最典型的 症状,患者鼾声中含有重要诊断信息。文章从 OSAHS 患者整晚鼾声中提取了梅尔倒谱系数、线性预测系数、谱熵 等声学特征参数,通过相关分析研究患者鼾声的特征参数与呼吸暂停低通气指数 (apneahypopneaindex,AHI) 的相关 性,探讨基于梯度提升回归的 AHI 预测,并与其他模型进行对比。结果表明:谱熵和梅尔倒谱系数的某些维度与 AHI 具有较强的相关性,其相关系数大于 0.6。与线性模型相比,梯度提升回归模型表现出更好的预测效果,其预 测的 AHI 与参考测量值之间的相关性高,相关系数为 0.813。结果表明,基于鼾声的声学特征预测 OSAHS 患者的 AHI 是可行的,对 OSAHS 的诊断具有较好的参考价值。
0引言
阻塞性睡眠呼吸暂停低通气综合征 (obstructive sleepapneahypopneasyndrome,OSAHS) 是一种日 常生活中常见的睡眠呼吸障碍疾病,患者的症状为 睡眠过程中上呼吸道部分或完全塌陷导致低通气或 呼吸暂停,并伴有频发性血氧饱和度降低及睡眠结 构混乱等现象[1]。多导睡眠图 (polysomnography, PSG) 是临床诊断 OSAHS 的金标准[2],但其昂贵的 检测费用、复杂的检测过程和较低的普及率等导致 大量潜在的 OSAHS 患者无法得到及时诊断和治 疗[3-4]。因此研究一种低成本、易操作的 OSAHS 诊 断方法是当前的一个研究热点。
打鼾是 OSHAS 患者最典型的临床症状之一, 研究表明鼾声与 OSAHS 存在着紧密的联系[5]。呼 吸暂停低通气指数 (apneahypopneaindex,AHI) 是 衡量 OSAHS 严重程度的评估指标,定义为患者睡 眠期间平均每小时呼吸暂停事件与低通气事件的次 数之和。已有研究利用患者鼾声预测 AHI [6-9],以辅助诊断 OSAHS。Ding 等[6]提出了一种基于预训 练的 VGG19 和长短期记忆网络融合模型来区分正 常鼾声和呼吸紊乱相关的鼾声,并检测出呼吸紊乱 事件以计算 AHI。侯丽敏等[7]采用高斯混合模型和 基频特征对正常鼾声和 OSAHS 鼾声分别建模,然 后判断呼吸紊乱事件并计算 AHI。上述研究基于 呼吸紊乱事件前后鼾声特性对 AHI 进行预测,依 赖于对呼吸紊乱事件的准确判别。Kim 等[8]对受试 者整晚睡眠录音信号进行分析,使用随机森林回归 和多种时频域特征构建 AHI 预测模型。Xie 等[9]提 出了鼾声变异率来描述整晚鼾声的能量变化,采 用 XGBoost 回归预测 AHI。此类方法基于受试者 整晚鼾声声学特征预测 AHI,无需识别呼吸紊乱 事件及其相关鼾声,简化了前期对鼾声的预处理。 但已有研究中,重度 OSAHS 患者数量偏少,使其 预测结果的应用受限。本文通过对 102 名受试者整 晚睡眠鼾声进行分析,提取了多种鼾声声学特征并 评估其参数与 AHI 的相关性,分别利用梯度提升 回归 (gradientboostingregression,GBR)、支持向量 回归 (support vectorregression, SVR) 和线性回归 (linear regression, LR) 方 法 预 测 OSAHS 患 者 的 A HI 值,为临床提供诊断 OSAHS 提供参考。
1基于鼾声分析的 AHI 预测模型
1.1鼾声声学特征提取
鼾声是由上呼吸道组织振动产生的,携带了上 呼吸道结构的重要信息[10]。研究表明鼾声的频域特 征比时域特征包含更多有效的信息[11]。本文首先将 受试者整晚录音中的所有鼾声片段分割成帧,设置 帧长为 20ms,帧移为 50%,然后对每一帧计算其 特征参数,并按时序排列得到特征矩阵,行数代表 特征数量,列数代表时间帧数。最后按帧计算特征 值的最大值、最小值、均值和方差,拼接后得到代 表受试者整晚睡眠鼾声信息的特征向量。文中共提 取了 10 种描述鼾声的声学特征,其特征集维度为 244,计算特征参数与 AHI 的皮尔森 (Pearson) 相 关系数 (Pearsoncorrelationcoefficient,PCC) 以评估 其相关性。表 1 为所提取的声学特征以及相应维 度,包括梅尔倒谱系数 (Mel-frequency cepstrum coefficients, MFCC) [12]、 线 性 预 测 系 数 (linear prediction coefficients, LPC) [12]、 谱 熵 (spectral entropy,SE) [11]、800Hz 功率比 (powerratio800Hz, PR800) [13]、 基 频 (pitch) [14]、 共 振 峰 (formant) [14]、 最大功率比 (maximumpowerratio,MPR) [11]、频谱 质心 (spectralcentroid,SC) [11]、频谱平坦度 (spectral flatness,SF) [15]、频谱滚降点 (spectralroll-off,SR) [11]。
1.2回归模型
为了比较不同模型对 AHI 的预测能力,分别 利用 LR、SVR 和 GBR 三种模型构建 AHI 回归预 测模型。LR 模型是通过寻找最佳拟合直线,使得 预测值与观测值之间的误差平方和最小,一般使用 最小二乘法求取最优解。该模型简单高效,能根据 权重系数直接判断每个特征对目标值的影响程度, 可解释性较强。
SVR 模型的拟合目标是找到一个能够最大化 边界区域内样本点与回归函数之间间隔的曲线,同 时限制误差不超过预设的阈值。SVR 模型与 LR 模 型相比,其决策边界面是一个区间,样本只要落入 决策区间范围内就认为没有误差,不计算损失函 数,使得模型具备一定的泛化性和鲁棒性。
GBR 模型是一种基于决策树的集成学习模 型,通过迭代训练一个序列化的决策树模型来逐步 减小预测误差。GBR 模型中每一棵树都是弱预测 模型,其预测结果只能解释部分数据的变化。在每 轮迭代中,模型基于前面所有树的残差来构建当前 树,然后将新模型的预测值与原始目标变量之间的 误差进行最小化,从而改进预测能力。
三种模型参数设置如下:LR 模型参数设置为 默认;SVR 模型设置核函数为 linear,惩罚因子为 10.0,其余参数为默认;GBR 模型设置决策树数 量为 100,最大深度为 3,学习率为 0.1,其余参数 为默认。实验中使用的硬件设备为 CPUAMD Ryzen94900H,软件环境为 Matlab2021a、Python 3 .8 和 Sklearn0.24.1。
1.3回归模型评估指标
y yˆ µ Pearson 相关系数反映了自变量和变量之间线 性相关性的强弱程度。假设测试集样本的真实标签 为 ,预测标签为 ,测试集真实值的均值为 ,测试集预测值的均值为µˆ。计算得到测试集真实标签 与预测标签的皮尔森相关系数为
平均绝对误差 (meanabsoluteerror,MAE) 表示 预测值与真实值之间的绝对误差的均值,所有个体 差异在平均值上的权重大小都相等。均方根误差 (rootmeansquareerror,RMSE) 表示预测值和观测 值之间差异的样本标准差,对高残差给予更多的惩 罚 ,表示样本的离散程度。
2数据采集与实验设置
本文选取来自广州医科大学附属第一医院和开 源数据集 PSG-Audio 的受试者共 102 例[2]。在受试 者进行多导睡眠图 (PSG)(伟康Alice-5) 监测时,将 电容式测量传声器 (BehringerECM8000) 放置于受 试者口鼻上方约 1m 处,同步录制鼾声。采样频 率和采样精度分别为 48kHz 和 24bit,时长为 6~ 8h。后续从采集的受试者整晚睡眠录音中提取鼾 声片段,并在耳鼻喉科专家的指导下对所有的鼾声 片段进行人工核对以保证数据的准确性。在本研究 中采集到的鼾声总数为 101283 个。受试者的统计 信 息 如表 2 所 示 。 临 床 诊 断 根 据 AHI 值 将 OSAHS 患者划分为 4 类:正常打鼾者 (AHI、 轻度 OSAHS 患者 (5 AHI、中度 OSAHS 患 者 (15 AHI和重度 OSAHS 患者 (AHI 30)。
为了充分利用实验数据,采用五折交叉验证 训 练 回 归 模 型 并 验 证 。将 102 名 受 试 者 的 共 101283 个鼾声片段均分为 5 组不相交的子集,其 中 4 组分别为 20 人,剩余一组为 22 人。随机挑选 一组受试者的整晚鼾声数据作为验证集,其余作为 训练集构建回归模型,该迭代过程重复 5 次,保证 每组受试者的鼾声数据有且仅有一次机会作为验证 集。最后将这 5 次预测结果进行合并以遍历数据 集,获得全体受试者的 AHI 预测值,以评估模型 的 预测性能。
3特征评估与 AHI 预测结果
3.1特征相关性评估结果
图 1 为 PCC 排序前 10 的特征类别,分别是 SE、MFCC、LPC、PR800、MPR、SC 以及 SF 的 统计量,PCC 均大于 0.4 且显著性水平 P, 这表明这些特征参数与 AHI 之间具有较好的相关 性。图 1 中纵坐标物理量下标 mean 表示均值, max 表示最大值,min 表示最小值。其中 PCC 较 大的两个特征 (SE 均值、MFCC14 的最大值) 与 AHI 的相关性更强,其 PCC 大于 0.6。Sun 等[16]的 研究中提到 OSAHS 患者的 SE 均值大于正常打鼾 者,表明 AHI 越高的受试者,其 SE 均值也越高。 这与图 1 中 SE 均值与 AHI 呈现较强的正相关这一 结果吻合。
3.2AHI 预测结果
AHIPSG AHIPSG 表 3 给出了三种回归模型下 AHI 的预测结 果,LR 和 SVR 模型下 AHI 的预测值与 PSG 测量 值 之 间 的 PCC 分 别 为 0.712 和 0.727, MAE 分别为 15.67 和 15.47,表明 LR 模型和线性 核 SVR 模型可以较好地拟合鼾声特征与 AHI 之间 的线性关系。SVR 模型对容忍偏差内的样本点不 计算损失函数,相较于 LR 模型更能降低异常值对 模型的影响。虽然两者的预测效果差距不大,但 SVR 模型更具有稳定性和鲁棒性。GBR 模型 AHI 预测值与测量值 之间的 PCC 达 0.813,MAE为 14.15。对比 LR 和 SVR 模型,GBR 模型预测 的 AHI 相关性最高,与目标值之间的偏差也最 小。这是由于 GBR 模型通过迭代训练多个弱学习 器,并组合成一个强大的集成模型,使得 GBR 模 型的预测能力和泛化能力均优于 LR 和 SVR 模型。
表 4 给出了三种模型下 4 个 AHI 区间内患者 的 AHI 预测结果。LR 模型和 SVR 模型对正常和 轻度患者的 AHI 预测均值偏离参考区间,对中度 和重度患者的预测均值在参考区间内。GBR 模型 AHIPSG 对正常、轻度、中度和重度 OSAHS 患者的 AHI 预测均值分别为 7.19、14.26、27.27 和 43.97,对 OSAHS 患者能相对准确地预测其 AHI。与各个区 间内 均值的绝对误差分别为 4.03、3.95、 6.25 和 18.23,正常打鼾者、轻度和中度 OSAHS 患者的 AHI 预测均值误差为 4~7,这表明采用 GBR 模型能较准确地预测非重度患者的 AHI 值, 极个别重度患者的 AHI 预测值不在 PSG 结果对应 区间内,整体预测结果略偏低。
图 2 给 出 了 采 用 GBR 模 型 AHI 预 测 值 与 AHIPSG 测量值之间的对应关系散点图。当 AHI 小于 50 时,GBR 模型预测得到的受试者的 AHI 与 PSG 测量得到 AHI 之间的差异较小。但随着受 试者的 AHI 增加,GBR 模型预测的 AHI 偏小, 与 PSG 测量得到 AHI 之间的偏离趋势逐渐变大, 这与 Kim 等[8]和 Xie 等[9]等得到的实验结果一致。 对比 PSG 记录和鼾声录音数据发现,存在呼吸紊 乱事件没有鼾声的情形和呼吸紊乱事件中鼾声过于 微弱导致没有被检测出鼾声片段,加上重度患者发 生呼吸紊乱事件的频率较高,这些情形会导致低估 重度 OSAHS 患者的 AHI。
4讨论
上述研究结果表明,根据受试者整晚睡眠鼾声 声学特征参数预测 OSAHS 患者的 AHI 与采用 PSG 方法得到的 AHI 具有较好的相关性,验证了 方法的可行性。Ding 等[6]和侯丽敏等[7]的实验对普 通鼾声与呼吸紊乱事件相关的鼾声进行分类,利用 相关鼾声建模来判断呼吸紊乱事件并计算 AHI。 这种方法依赖于相关鼾声的识别,所有的鼾声片段 都要经过分类模型筛选出病态鼾声。当鼾声数量较 大时,将导致计算效率低、开销大的问题。本文直 接分析受试者整晚鼾声的声学特征信息与 AHI 的 关系,并构建基于回归算法的 AHI 预测模型,省 去繁琐的呼吸紊乱事件的识别。Kim 等[8]的实验 中,分析了受试者整晚睡眠呼吸声特征与 AHI 的 关系,使用随机森林回归训练 AHI 预测模型并测 试,相关系数达到 0.83。本文直接从受试者整晚睡 眠录音中提取鼾声片段,剔除了环境噪声等其他非 鼾声的干扰,保证了预测模型可靠性。Xie 等[9]提 出了鼾声变异率来描述整晚鼾声能量的动态特征, 并引入了身体质量指数、年龄等患者统计信息作 为 AHI 预测的特征变量,使用 XGBoost 回归预测 AHI 的相关系数 PCC 达到了 0.786,平均绝对误差 为 7.26。但其数据集中 AHI的受试者占比为 81%,AHI的受试者占比为 58%。而临床诊断 时重度患者的占比往往更多,本文使用的数据分布 更接近临床实际情况。由于缺乏大数据量的公开数 据集,基于整晚鼾声特征的 AHI 预测研究受到样 本数量少及分布不均衡的限制,其预测精度还有较 大 的提升潜力。
5结论
本文探讨了基于受试者整晚睡眠鼾声特征的AHI 回归预测模型,从 OSAHS 患者整晚睡眠鼾声 中提取了 MFCC、LPC、谱熵等声学特征参数,采 用 Pearson 相关评估声学特征,并对比了 GBR、 LR 和 SVR 三种模型的预测性能。结果显示 SE 和 MFCC 的统计量与 AHI 之间具有较好的相关性。 相较于单一模型,集成模型 GBR 预测 OSAHS 患 者的 AHI 效果更好,其 PCC 为 0.813,MAE 为 14.15。这表明通过 MFCC、SE 等声学特征参数结 合 GBR 模型预测 OSAHS 患者的 AHI 是可行的, 对临床借助鼾声辅助诊断 OSAHS 具有重要参考意 义。下一步的研究将引入更多的受试者和更多相关 的特征训练模型,进一步提升模型的预测性能。