摘要
本发明提供一种基于视觉提示选择性定位声源的方法、装置、介质及产品,该方法包括以下步骤:获取混合音频信号与提示图像;混合音频信号包括至少二个不同声源触发的不同声音事件对应的音频信号;提示图像与目标声源关联,目标声源为所需的从不同声源中选择定位出的声源;提示图像所提示的对象触发的声音事件与目标声源触发的声音事件属于同一声音事件;通过预设的跨实例视听定位模型处理混合音频信号与提示图像,包括估计目标掩码;基于目标掩码输出目标声源对应的目标到达方向。本发明实现从多个声源触发的多个不同声音事件中,对特定声音事件对应的特定声源选择定位,应用范围广。
技术关键词
多模态
语义特征
视觉
匹配模块
图像
注意力
视听
短时傅里叶变换
信号
音频编码器
计算机装置
计算机程序产品
处理器
双声道
可读存储介质
视频帧
系统为您推荐了相关专利信息
图像处理模块
实时处理系统
遥感图像数据
地面站
通信链路
图像拼接方法
拼接缝隙
拉普拉斯金字塔
像素点
特征点
网络剪枝方法
分类网络训练
参数
图像
构建训练集
清洗控制系统
动态时间窗口
可见光图像
深度确定性策略梯度
双摄像头
知识迁移方法
高层语义特征
预训练语言模型
文本
样本