基于视觉提示选择性定位声源的方法、装置、介质及产品

正文

推荐专利

申请号：CN202510639154

申请日期：2025-05-19

公开号：CN120161404B

公开日期：2025-07-25

类型：发明专利

摘要

本发明提供一种基于视觉提示选择性定位声源的方法、装置、介质及产品，该方法包括以下步骤：获取混合音频信号与提示图像；混合音频信号包括至少二个不同声源触发的不同声音事件对应的音频信号；提示图像与目标声源关联，目标声源为所需的从不同声源中选择定位出的声源；提示图像所提示的对象触发的声音事件与目标声源触发的声音事件属于同一声音事件；通过预设的跨实例视听定位模型处理混合音频信号与提示图像，包括估计目标掩码；基于目标掩码输出目标声源对应的目标到达方向。本发明实现从多个声源触发的多个不同声音事件中，对特定声音事件对应的特定声源选择定位，应用范围广。

技术关键词

多模态语义特征视觉匹配模块图像注意力视听短时傅里叶变换信号音频编码器计算机装置计算机程序产品处理器双声道可读存储介质视频帧

系统为您推荐了相关专利信息

一种卫星图像的实时处理系统以及方法

图像处理模块实时处理系统遥感图像数据地面站通信链路

图像拼接方法、系统、电子设备及存储介质

图像拼接方法拼接缝隙拉普拉斯金字塔像素点特征点

基于一次性自动化网络剪枝的分类方法及系统

网络剪枝方法分类网络训练参数图像构建训练集

一种光伏板自适应智能清洗控制系统及方法

清洗控制系统动态时间窗口可见光图像深度确定性策略梯度双摄像头

跨领域知识迁移方法、装置、电子设备、介质以及产品

知识迁移方法高层语义特征预训练语言模型文本样本

基于视觉提示选择性定位声源的方法、装置、介质及产品

站点导航

APP 下载