一种基于音频增强的音视频语音识别方法及系统

AITNT
正文
推荐专利
一种基于音频增强的音视频语音识别方法及系统
申请号:CN202510363857
申请日期:2025-03-26
公开号:CN120279925A
公开日期:2025-07-08
类型:发明专利
摘要
本发明公开了一种基于音频增强的音视频语音识别方法及系统,属于音视频语音识别技术领域,基于视觉上下文驱动的音频增强实现音视频语音识别,包括:视觉特征提取:从输入的唇部视频中提取视觉特征;音频特征提取:从输入的音频信号中提取音频特征;视觉上下文驱动的音频增强:通过跨模态注意力机制,利用视觉特征生成与音频特征相关的视觉上下文信息;根据视觉上下文信息生成降噪掩模,并将其应用于音频特征,以增强音频信号并抑制噪声;音视频特征融合:将增强后的音频特征与视觉特征进行融合,生成用于语音识别的联合特征。本发明能够增强嘈杂环境下的音频信号,并将其应用于端到端的音视频语音识别系统中,提高系统的鲁棒性和识别性能。
技术关键词
语音识别方法 音视频 视觉特征提取 音频特征提取 机器可读程序 语音识别系统 注意力机制 跨模态 掩模 输出特征 语音识别装置 语音识别技术 信号 矩阵
系统为您推荐了相关专利信息
1
多模态的视频字幕识别方法、系统、电子设备及存储介质
视频字幕识别方法 自动语音识别方法 光学字符识别方法 人声 文本
2
一种税务热线咨询坐席方法及装置
答案 机器可读程序 实时语音 自然语言生成技术 逻辑推理技术
3
一种AIGC多模态视听内容创作方法及系统
创作方法 音乐 文本 视听 残差卷积神经网络
4
噪声环境下音视频渐进式融合训练的语音识别方法及装置
语音识别方法 音频特征 编码器 标签 噪声
5
一种标记压缩框架的图文处理方法及装置
标记 局部注意力机制 视觉特征提取 图文 文本编码器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号