一种基于多模态视听融合的transformer语音识别方法、系统、设备及介质

正文

推荐专利

申请号：CN202510083582

申请日期：2025-01-20

公开号：CN120108390A

公开日期：2025-06-06

类型：发明专利

摘要

本发明公开了一种基于多模态视听融合的transformer语音识别方法、系统、设备及介质，包括获取待处理的音视频数据，音视频数据包括成对的音频数据和视频数据；音频数据特征提取，得到音频特征；视频数据特征提取，得到视频特征；将提取的音频特征和视频特征输入Transformer模型中，输出预测的文本信息；Transformer模型包括编码器、解码器以及混合CTC/attention。本发明将原始信号转换为Transformer模型可处理的特征向量后，通过整合音频和视频模态的信息，并应用动态的权重分配来平衡不同模态间的信息贡献；利用编码器和解码器结构实现了语音到文本的转换，同时借助多头自注意力机制捕获了输入序列内部各位置间的依赖关系，解决了语音识别在复杂环境中的表现受限于噪声、口音和语速影响的问题。

技术关键词

音频特征语音识别方法数据特征提取多模态编码器解码器视听音视频注意力机制优化FFT算法序列卷积神经网络结构噪声检测模块语音识别设备语音识别系统文本

系统为您推荐了相关专利信息

一种在线学习的游戏化优化方法、装置、设备及存储介质

教育游戏化优化方法静态特征文本编码器图像编码器

问答方法、装置、设备、介质和程序产品

多模态信息索引表格意图文本

用户体验预测方法、装置、电子设备及存储介质

系统调用序列需求预测模型系统配置数据快照体验模型

航空发动机故障数据的生成方法、装置和计算机设备

数据生成模型航空发动机故障故障场景多场景数据分布

碳钢点蚀坑生长方向预测方法、装置、电子设备及存储介质

图像分割激光共聚焦显微镜前馈神经网络碳钢样本

一种基于多模态视听融合的transformer语音识别方法、系统、设备及介质

站点导航

APP 下载