摘要
本发明提出了一种基于谷歌足球模拟器的强化学习方法,包括:基于谷歌足球模拟器构建谷歌足球环境,获取当前时刻的观测信息;根据观测信息利用训练好的大语言模型生成动作提示信息;根据动作提示信息,利用智能体从策略网络中选择动作并反馈到所述谷歌足球环境;根据动作执行后谷歌足球环境下的足球比赛视频和动作提示信息,利用训练好的视频文本检索模型计算视频与文本的相似度,进而得到相似度奖励;根据观测信息计算足球基础奖励;根据足球基础奖励和相似度奖励得到强化学习总奖励;根据强化学习总奖励,利用近端策略优化算法更新智能体的策略网络的参数。本发明能够在谷歌足球模拟器模拟的谷歌足球环境中提高强化学习性能。
技术关键词
足球比赛视频
强化学习方法
模拟器
训练样本集
大语言模型
文本编码器
图像编码器
策略
生成动作
注意力机制
视频编码器
微调方法
预训练模型
编码特征
视频帧
前馈神经网络
系统为您推荐了相关专利信息
融合特征
图像特征信息
音频特征信息
车辆座舱
大语言模型
可编程逻辑控制器
生成提示词
生成智能
文本生成方法
补丁