摘要
本发明涉及人工智能及医疗健康技术领域,公开了智能体动作生成方法、装置、计算机设备及存储介质。所述方法包括:获取环境的视觉信号以及任务指令的文本信息;将视觉信号以及文本信息输入至具身多模态智能体中进行动作生成,以得到生成结果;输出生成结果;具身多模态智能体的训练过程包括:使用大语言模型生成任务指令和专家演示数据,结合视觉信号和任务输入的文本信息,利用DAgger‑DPO算法优化具身多模态智能体的行为模仿。通过实施本发明的方法可实现结合大语言模型智能体和视觉语言模型智能体的优势,提高大语言模型;在动态视觉环境中的适应能力;与传统视觉语言模型相比,能更准确地捕捉环境信息,并实现更高效的环境交互。
技术关键词
动作生成方法
大语言模型
文本
变换器模块
计算机设备
指令
动作生成装置
医疗健康技术
交叉注意力机制
信号
视觉特征提取
算法
输入模块
模拟器
生成智能
解码器
数据
规划
系统为您推荐了相关专利信息
大语言模型
树形数据结构
语义
微处理器
可读存储介质
激光头
路径规划方法
避碰规则
系统实时监控
复杂度
集成学习方法
大语言模型
随机森林模型
数据验证
自动化分类方法