摘要
本发明公开了一种基于多模态视听融合的transformer语音识别方法、系统、设备及介质,包括获取待处理的音视频数据,音视频数据包括成对的音频数据和视频数据;音频数据特征提取,得到音频特征;视频数据特征提取,得到视频特征;将提取的音频特征和视频特征输入Transformer模型中,输出预测的文本信息;Transformer模型包括编码器、解码器以及混合CTC/attention。本发明将原始信号转换为Transformer模型可处理的特征向量后,通过整合音频和视频模态的信息,并应用动态的权重分配来平衡不同模态间的信息贡献;利用编码器和解码器结构实现了语音到文本的转换,同时借助多头自注意力机制捕获了输入序列内部各位置间的依赖关系,解决了语音识别在复杂环境中的表现受限于噪声、口音和语速影响的问题。
技术关键词
音频特征
语音识别方法
数据特征提取
多模态
编码器
解码器
视听
音视频
注意力机制
优化FFT算法
序列
卷积神经网络结构
噪声检测模块
语音识别设备
语音识别系统
文本
系统为您推荐了相关专利信息
教育游戏
化优化方法
静态特征
文本编码器
图像编码器
系统调用序列
需求预测模型
系统配置数据
快照
体验模型
数据生成模型
航空发动机故障
故障场景
多场景
数据分布
图像分割
激光共聚焦显微镜
前馈神经网络
碳钢
样本