基于视觉提示选择性定位声源的方法、装置、介质及产品

AITNT
正文
推荐专利
基于视觉提示选择性定位声源的方法、装置、介质及产品
申请号:CN202510639154
申请日期:2025-05-19
公开号:CN120161404B
公开日期:2025-07-25
类型:发明专利
摘要
本发明提供一种基于视觉提示选择性定位声源的方法、装置、介质及产品,该方法包括以下步骤:获取混合音频信号与提示图像;混合音频信号包括至少二个不同声源触发的不同声音事件对应的音频信号;提示图像与目标声源关联,目标声源为所需的从不同声源中选择定位出的声源;提示图像所提示的对象触发的声音事件与目标声源触发的声音事件属于同一声音事件;通过预设的跨实例视听定位模型处理混合音频信号与提示图像,包括估计目标掩码;基于目标掩码输出目标声源对应的目标到达方向。本发明实现从多个声源触发的多个不同声音事件中,对特定声音事件对应的特定声源选择定位,应用范围广。
技术关键词
多模态 语义特征 视觉 匹配模块 图像 注意力 视听 短时傅里叶变换 信号 音频编码器 计算机装置 计算机程序产品 处理器 双声道 可读存储介质 视频帧
系统为您推荐了相关专利信息
1
一种卫星图像的实时处理系统以及方法
图像处理模块 实时处理系统 遥感图像数据 地面站 通信链路
2
图像拼接方法、系统、电子设备及存储介质
图像拼接方法 拼接缝隙 拉普拉斯金字塔 像素点 特征点
3
基于一次性自动化网络剪枝的分类方法及系统
网络剪枝方法 分类网络训练 参数 图像 构建训练集
4
一种光伏板自适应智能清洗控制系统及方法
清洗控制系统 动态时间窗口 可见光图像 深度确定性策略梯度 双摄像头
5
跨领域知识迁移方法、装置、电子设备、介质以及产品
知识迁移方法 高层语义特征 预训练语言模型 文本 样本
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号