一种基于谷歌足球模拟器的强化学习方法

正文

推荐专利

一种基于谷歌足球模拟器的强化学习方法

申请号：CN202410712405

申请日期：2024-06-04

公开号：CN118278295B

公开日期：2024-08-09

类型：发明专利

摘要

本发明提出了一种基于谷歌足球模拟器的强化学习方法，包括：基于谷歌足球模拟器构建谷歌足球环境，获取当前时刻的观测信息；根据观测信息利用训练好的大语言模型生成动作提示信息；根据动作提示信息，利用智能体从策略网络中选择动作并反馈到所述谷歌足球环境；根据动作执行后谷歌足球环境下的足球比赛视频和动作提示信息，利用训练好的视频文本检索模型计算视频与文本的相似度，进而得到相似度奖励；根据观测信息计算足球基础奖励；根据足球基础奖励和相似度奖励得到强化学习总奖励；根据强化学习总奖励，利用近端策略优化算法更新智能体的策略网络的参数。本发明能够在谷歌足球模拟器模拟的谷歌足球环境中提高强化学习性能。

技术关键词

足球比赛视频强化学习方法模拟器训练样本集大语言模型文本编码器图像编码器策略生成动作注意力机制视频编码器微调方法预训练模型编码特征视频帧前馈神经网络

系统为您推荐了相关专利信息

语音交互方法、服务器和计算机可读存储介质

融合特征图像特征信息音频特征信息车辆座舱大语言模型

一种基于思维链的text2sql模型实现方法、装置、计算机设备及可读存储介质

大语言模型文本指令计算机设备语句

一种基于大语言模型的检索增强生成方法及相关产品

文本大语言模型生成方法智能问答系统意图

基于多智能体的可编程逻辑控制器结构化文本生成方法

可编程逻辑控制器生成提示词生成智能文本生成方法补丁

问题处理方法及相关装置

表头大语言模型字段序列数据

一种基于谷歌足球模拟器的强化学习方法

站点导航

APP 下载