基于深度学习与联邦学习的多模态儿童嗓音数据处理方法

正文

推荐专利

申请号：CN202510955059

申请日期：2025-07-11

公开号：CN120470245B

公开日期：2025-09-05

类型：发明专利

摘要

本发明涉及儿童嗓音数据处理领域，具体涉及一种基于深度学习与联邦学习的多模态儿童嗓音数据处理方法。方案包括：采集儿童的喉镜图像和发声音频数据，预处理之后通过DLE模块提取喉镜图像中的局部特征，采用GSA模块提取喉镜图像中的全局特征，采用MSFE模块进行喉镜图像的局部特征与全局特征融合，得到喉镜图像的最终融合特征，再通过AMFN模块从预处理后的梅尔频谱图中提取音频数据的局部特征与全局特征，并进行局部特征与全局特征的融合；之后对Vision Transformer分类器模型进行训练，在训练过程中，结合联邦学习框架确保多中心医疗数据的隐私保护和分布式建模能力。本发明适用于儿童嗓音数据分类。

技术关键词

喉镜数据处理方法融合特征分类器模型音频模态特征儿童模块全局特征融合积层空洞分支图像高亮区域梅尔频率倒谱系数双通道注意力发声

系统为您推荐了相关专利信息

一种用于建筑工程管理的BIM数据处理方法

点云模型建筑工程管理数据处理方法偏差施工误差

机器人的数据处理方法、装置、电子设备及存储介质

障碍物存储机器人计算机可执行指令数据处理方法坐标系

一种自动抑郁症检测方法及系统

语义特征提取深度卷积特征残差模块抑郁症检测系统交叉注意力机制

民航飞行及空管人员英语胜任力预测、培训和评估系统

评估系统测试模块英语频率提取方法梅尔频率倒谱系数

表情预测方法、表情预测模型的训练方法和可读存储介质

样本音频编码器序列拼接模块注意力

基于深度学习与联邦学习的多模态儿童嗓音数据处理方法

站点导航

APP 下载