摘要
本申请提供了一种音频信号处理方法及装置,该方法包括:从摄像头实时获取音视频信号,其中,音视频信号包括音频信号和视频信号,视频信号的至少部分视频帧中包括目标对象;基于至少部分视频帧识别目标对象的图像语义特征,基于图像语义特征和音频信号中与至少部分视频帧对应的音频来识别目标对象在与至少部分视频帧对应的音频中的目标声音,其中,图像语义特征是目标对象发声时的面部表征;从目标声音中提取声纹特征,并基于声纹特征来增强音频信号,得到增强后的音频信号。本申请解决了现有技术中在直播时可能由于背景噪声的影响而导致声音清晰度不高的技术问题。
技术关键词
语义特征
声纹特征
视频帧
深度音频特征
音频信号处理方法
对象
面部
音视频
图像
音频信号处理装置
语音
旋转角
识别模块
存储计算机程序
发声
降噪算法
信噪比
系统为您推荐了相关专利信息
输电线路巡检方法
伸展机械臂
距离图像
时间段
输电线路巡检设备
视觉特征提取
水下图像数据
文本
图像视觉特征
多尺度池化