一种基于语言引导的开放世界通用视觉感知方法

正文

推荐专利

申请号：CN202511117504

申请日期：2025-08-11

公开号：CN120976722A

公开日期：2025-11-18

类型：发明专利

摘要

本申请提供一种基于语言引导的开放世界通用视觉感知方法，属于计算机视觉与自然语言处理交叉领域，包括生成初始多模态融合表示，通过采集视频帧序列和语言指令，经处理与融合得到；接着确定目标候选区域，基于语义关键词与视觉区域特征匹配筛选优化；随后生成目标标识符，对高置信度区域分配唯一标识；再形成连续跟踪轨迹序列，结合算法更新边界框并平滑轨迹；当目标消失时暂存其状态向量，出现相似区域时恢复跟踪标识符；进而优化跟踪序列，调整边界框生成优化序列；最后输出目标运动轨迹、位置及状态信息。本发明通过多模态融合、优化算法及恢复机制，有效提升了开放世界目标识别与跟踪效果，具有较高的实用价值。

技术关键词

语义关键词标识符视觉感知方法序列视频帧文本特征向量多模态轨迹粒子滤波算法线性插值方法跨模态数据输入设备自然语言卡尔曼滤波器度计算方法训练工具预训练模型

系统为您推荐了相关专利信息

一种基于视频分析的异常行为识别方法及系统

视频分析识别方法特征提取器空间特征提取多模态

飞行器和操作空中加油飞行器的方法

飞行器控制器关键点图像相机系统加油系统

一种基于大模型与运筹优化的智能任务规划方法

资源分配策略规划任务调度资源需求数据运筹优化技术

一种分布式储能系统状态评估方法

分布式储能系统状态评估方法传感器累积分布函数信息熵

一种基于图像分割和三维重建的气管插管导航方法、装置

三维点云模型气管插管场景三维重建内窥镜导航方法

一种基于语言引导的开放世界通用视觉感知方法

站点导航

APP 下载