摘要
本发明公开了一种结合大模型与强化学习的无人艇多层级任务决策方法,涉及人工智能技术领域,该方法包括:获取无人艇在当前状态下的环境观测值;将环境观测值和无人艇的当前状态作为无人艇的环境状态,输入至策略模型中得到无人艇的执行策略;其中,策略模型是基于大语言模型与强化学习训练得到的。本发明的结合大模型与强化学习的无人艇多层级任务决策方法利用教师‑学生方法,通过融合大语言模型的对抗规则引导与强化学习的动态决策能力,显著提升了无人艇在复杂对抗环境下的执行能力。
技术关键词
决策方法
策略
网络优化
学生
层级
大语言模型
教师
动态决策能力
翻译器
强化学习算法
编码环境
意图指令
模块
数据存储
时序
正则化参数
人工智能技术
误差