摘要
本发明公开了一种基于世界知识模型的视频行为预测方法,包括:使用目标跟踪算法检测并跟踪视频中的物体,绘制目标采样轨迹;将目标采样轨迹转换为初步文本描述,并结合视频帧的时序信息,生成连贯的时序文本描述;将时序文本描述输入代理模型中,代理模型根据当前状态作为查询,从WKM中获取下一步动作的预测概率;代理模型结合其自身的预测概率和WKM给出的预测概率,进行加权融合,决定下一步动作。本发明通过构建WKM,结合了全局任务知识和局部状态知识,使模型能够适应不同任务和场景,提高了模型的泛化能力,并减少了智能体的无效行为和幻觉行为,从而提升了任务执行的效率和准确性。
技术关键词
轨迹
三元组
文本
时序
随机采样方法
物体
算法
预测系统
视频帧
模块
序列
加速度
数据
模式
关系
计划
索引
规划
坐标