摘要
本发明涉及儿童嗓音数据处理领域,具体涉及一种基于深度学习与联邦学习的多模态儿童嗓音数据处理方法。方案包括:采集儿童的喉镜图像和发声音频数据,预处理之后通过DLE模块提取喉镜图像中的局部特征,采用GSA模块提取喉镜图像中的全局特征,采用MSFE模块进行喉镜图像的局部特征与全局特征融合,得到喉镜图像的最终融合特征,再通过AMFN模块从预处理后的梅尔频谱图中提取音频数据的局部特征与全局特征,并进行局部特征与全局特征的融合;之后对Vision Transformer分类器模型进行训练,在训练过程中,结合联邦学习框架确保多中心医疗数据的隐私保护和分布式建模能力。本发明适用于儿童嗓音数据分类。
技术关键词
喉镜
数据处理方法
融合特征
分类器模型
音频
模态特征
儿童
模块
全局特征融合
积层
空洞
分支
图像高亮区域
梅尔频率倒谱系数
双通道注意力
发声
系统为您推荐了相关专利信息
点云模型
建筑工程管理
数据处理方法
偏差
施工误差
障碍物
存储机器人
计算机可执行指令
数据处理方法
坐标系
语义特征提取
深度卷积特征
残差模块
抑郁症检测系统
交叉注意力机制
评估系统
测试模块
英语
频率提取方法
梅尔频率倒谱系数