摘要
本公开一个或多个实施例提供一种智能体驱动的任务处理方法及相关设备。方法包括:获取用户问题和视觉信息,所述视觉信息包括视频片段或视频图像;根据所述用户问题以及预设的智能体框架,构建用户问题提示,述用户问题提示表示将所述用户问题、所述视觉信息、工具集合和视频知识库整合后的输入数据结构,所述工具集合包括多个专用视觉感知模型;将所述用户问题提示输入工具智能体,得到所述用户问题的回答;其中,所述工具智能体在多步推理中,以所述用户问题提示和上下文提示为输入,动态决策行动以得到行动结果,所述上下文提示包括历史推理步骤中所有行动和行动结果,所述行动结果指示所述用户问题的回答;将所述用户问题的回答发送至用户。
技术关键词
视频
视觉特征
大语言模型
标注工具
指令
决策
动态
数据
框架
计算机
自然语言
图像
处理器
算法
模块
存储器
模板
样本
系统为您推荐了相关专利信息
虚拟显示器
采集卡
画面
电脑终端
支持HDMI接口
喷浆机械手
高频特征
特征值
阶次可调
液压执行机构
硅片检测方法
浅层卷积神经网络
断裂韧性测试
图像
硅片检测装置
空间定位信息
人体骨架信息
骨架特征
生成图像信息
多头注意力机制