摘要
本发明提供了一种基于上下文提示的世界模型增强方法及装置,属于深度强化学习技术领域。方法根据当前图像输入得到图像描述语句;通过卷积神经网络得到当前图像输入的向量表示,利用语言模型得到图像描述语句的向量表示,将图向量表示与语句向量表示拼接,得到新的向量表示;将新的向量表示利用循环神经网络实现对世界模型的建模,世界模型根据当前的向量输入,在历史动作和环境信息上下文基础上进行动作决策,有效减轻了智能体探索时的轨迹回退现象出现的频率。在环境变化时,智能体能根据上下文信息及时进行调整,提高智能体的适应性与灵活性。本发明有效减少了智能体错误决策的可能性,有效提升了在限定步数之内智能体的背景任务完成数量。
技术关键词
文本特征向量
动作指令信息
仿真环境
图像特征向量
状态更新
语句
视觉特征提取
网络
深度强化学习技术
大语言模型
多层感知机
决策
序列
代表
超参数
多模态
动作模块
算法
系统为您推荐了相关专利信息
相位计算方法
图像采集模块
图像特征向量
相关系数阈值
灰度特征描述
无监督缺陷检测方法
太阳能网版
特征提取器
记忆
多层次深度特征
仿真通信
测试平台
芯片验证方法
芯片验证系统
仿真环境