摘要
本发明公开了一种基于音频增强的音视频语音识别方法及系统,属于音视频语音识别技术领域,基于视觉上下文驱动的音频增强实现音视频语音识别,包括:视觉特征提取:从输入的唇部视频中提取视觉特征;音频特征提取:从输入的音频信号中提取音频特征;视觉上下文驱动的音频增强:通过跨模态注意力机制,利用视觉特征生成与音频特征相关的视觉上下文信息;根据视觉上下文信息生成降噪掩模,并将其应用于音频特征,以增强音频信号并抑制噪声;音视频特征融合:将增强后的音频特征与视觉特征进行融合,生成用于语音识别的联合特征。本发明能够增强嘈杂环境下的音频信号,并将其应用于端到端的音视频语音识别系统中,提高系统的鲁棒性和识别性能。
技术关键词
语音识别方法
音视频
视觉特征提取
音频特征提取
机器可读程序
语音识别系统
注意力机制
跨模态
掩模
输出特征
语音识别装置
语音识别技术
信号
矩阵
系统为您推荐了相关专利信息
视频字幕识别方法
自动语音识别方法
光学字符识别方法
人声
文本
答案
机器可读程序
实时语音
自然语言生成技术
逻辑推理技术
标记
局部注意力机制
视觉特征提取
图文
文本编码器