一种基于语言引导的开放世界通用视觉感知方法

AITNT
正文
推荐专利
一种基于语言引导的开放世界通用视觉感知方法
申请号:CN202511117504
申请日期:2025-08-11
公开号:CN120976722A
公开日期:2025-11-18
类型:发明专利
摘要
本申请提供一种基于语言引导的开放世界通用视觉感知方法,属于计算机视觉与自然语言处理交叉领域,包括生成初始多模态融合表示,通过采集视频帧序列和语言指令,经处理与融合得到;接着确定目标候选区域,基于语义关键词与视觉区域特征匹配筛选优化;随后生成目标标识符,对高置信度区域分配唯一标识;再形成连续跟踪轨迹序列,结合算法更新边界框并平滑轨迹;当目标消失时暂存其状态向量,出现相似区域时恢复跟踪标识符;进而优化跟踪序列,调整边界框生成优化序列;最后输出目标运动轨迹、位置及状态信息。本发明通过多模态融合、优化算法及恢复机制,有效提升了开放世界目标识别与跟踪效果,具有较高的实用价值。
技术关键词
语义关键词 标识符 视觉感知方法 序列 视频帧 文本特征向量 多模态 轨迹 粒子滤波算法 线性插值方法 跨模态数据 输入设备 自然语言 卡尔曼滤波器 度计算方法 训练工具 预训练模型
系统为您推荐了相关专利信息
1
一种基于视频分析的异常行为识别方法及系统
视频分析 识别方法 特征提取器 空间特征提取 多模态
2
飞行器和操作空中加油飞行器的方法
飞行器控制器 关键点 图像 相机系统 加油系统
3
一种基于大模型与运筹优化的智能任务规划方法
资源分配策略 规划 任务调度 资源需求数据 运筹优化技术
4
一种分布式储能系统状态评估方法
分布式储能系统 状态评估方法 传感器 累积分布函数 信息熵
5
一种基于图像分割和三维重建的气管插管导航方法、装置
三维点云模型 气管插管 场景三维重建 内窥镜 导航方法
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号