一种基于音频增强的音视频语音识别方法及系统

正文

推荐专利

申请号：CN202510363857

申请日期：2025-03-26

公开号：CN120279925A

公开日期：2025-07-08

类型：发明专利

摘要

本发明公开了一种基于音频增强的音视频语音识别方法及系统，属于音视频语音识别技术领域，基于视觉上下文驱动的音频增强实现音视频语音识别，包括：视觉特征提取：从输入的唇部视频中提取视觉特征；音频特征提取：从输入的音频信号中提取音频特征；视觉上下文驱动的音频增强：通过跨模态注意力机制，利用视觉特征生成与音频特征相关的视觉上下文信息；根据视觉上下文信息生成降噪掩模，并将其应用于音频特征，以增强音频信号并抑制噪声；音视频特征融合：将增强后的音频特征与视觉特征进行融合，生成用于语音识别的联合特征。本发明能够增强嘈杂环境下的音频信号，并将其应用于端到端的音视频语音识别系统中，提高系统的鲁棒性和识别性能。

技术关键词

语音识别方法音视频视觉特征提取音频特征提取机器可读程序语音识别系统注意力机制跨模态掩模输出特征语音识别装置语音识别技术信号矩阵

系统为您推荐了相关专利信息

多模态的视频字幕识别方法、系统、电子设备及存储介质

视频字幕识别方法自动语音识别方法光学字符识别方法人声文本

一种税务热线咨询坐席方法及装置

答案机器可读程序实时语音自然语言生成技术逻辑推理技术

一种AIGC多模态视听内容创作方法及系统

创作方法音乐文本视听残差卷积神经网络

噪声环境下音视频渐进式融合训练的语音识别方法及装置

语音识别方法音频特征编码器标签噪声

一种标记压缩框架的图文处理方法及装置

标记局部注意力机制视觉特征提取图文文本编码器

一种基于音频增强的音视频语音识别方法及系统

站点导航

APP 下载