摘要
本发明提供了一种基于上下文提示的世界模型增强方法及装置,属于深度强化学习技术领域。方法根据当前图像输入得到图像描述语句;通过卷积神经网络得到当前图像输入的向量表示,利用语言模型得到图像描述语句的向量表示,将图向量表示与语句向量表示拼接,得到新的向量表示;将新的向量表示利用循环神经网络实现对世界模型的建模,世界模型根据当前的向量输入,在历史动作和环境信息上下文基础上进行动作决策,有效减轻了智能体探索时的轨迹回退现象出现的频率。在环境变化时,智能体能根据上下文信息及时进行调整,提高智能体的适应性与灵活性。本发明有效减少了智能体错误决策的可能性,有效提升了在限定步数之内智能体的背景任务完成数量。
技术关键词
文本特征向量
动作指令信息
仿真环境
图像特征向量
状态更新
语句
视觉特征提取
网络
深度强化学习技术
大语言模型
多层感知机
决策
序列
代表
超参数
多模态
动作模块
算法
系统为您推荐了相关专利信息
LSTM模型
社交媒体平台
数据
实体识别技术
长短期记忆网络
图像生成模型
图像特征向量
图像编码
样本
图像生成方法
SOC估计方法
等效电路模型
递归最小二乘法
元件
计算机程序代码