摘要
本申请提供一种基于语言引导的开放世界通用视觉感知方法,属于计算机视觉与自然语言处理交叉领域,包括生成初始多模态融合表示,通过采集视频帧序列和语言指令,经处理与融合得到;接着确定目标候选区域,基于语义关键词与视觉区域特征匹配筛选优化;随后生成目标标识符,对高置信度区域分配唯一标识;再形成连续跟踪轨迹序列,结合算法更新边界框并平滑轨迹;当目标消失时暂存其状态向量,出现相似区域时恢复跟踪标识符;进而优化跟踪序列,调整边界框生成优化序列;最后输出目标运动轨迹、位置及状态信息。本发明通过多模态融合、优化算法及恢复机制,有效提升了开放世界目标识别与跟踪效果,具有较高的实用价值。
技术关键词
语义关键词
标识符
视觉感知方法
序列
视频帧
文本特征向量
多模态
轨迹
粒子滤波算法
线性插值方法
跨模态数据
输入设备
自然语言
卡尔曼滤波器
度计算方法
训练工具
预训练模型
系统为您推荐了相关专利信息
视频分析
识别方法
特征提取器
空间特征提取
多模态
资源分配策略
规划
任务调度
资源需求数据
运筹优化技术
分布式储能系统
状态评估方法
传感器
累积分布函数
信息熵
三维点云模型
气管插管
场景三维重建
内窥镜
导航方法