摘要
本发明涉及一种面向自主智能体的大语言模型元认知修正自更新奖励方法,AURA(Auto‑Updating Reward Architecture)首先通过利用大型语言模型(Large Language Models,LLM)根据高层任务描述自动生成初始奖励函数,再由双循环架构实现计算上的元认知:一个快速的内循环通过分层注意力奖励合成器进行策略与奖励的协同演化;而一个较慢的外循环则作为元认知层,持续监控一个由策略动态、价值‑真实性对齐和奖励架构适应性构成的多维诊断向量,以识别学习过程中的异常。这种闭环反馈机制赋予了自主智能体对其自身奖励函数进行内省和自我修正的能力,构成了从静态目标规约到动态目标矫正的范式转变。增强了智能体在面对稀疏奖励、规约漏洞和环境不确定性时的鲁棒性、样本效率与最终性能。
技术关键词
奖励方法
因子
策略
数学
参数
概率密度函数
网络
分层注意力
多头注意力机制
动态
静态代码分析技术
自然语言
重构模块
高层次
定义
时序
语义
指令
表达式
系统为您推荐了相关专利信息
三维实景模型
矿山岩体
矿山智能爆破管理系统
岩体模型
决策
内容生成系统
BERT模型
正确率
内容生成技术
因子
循环神经网络模型
连续损伤力学
智能评价方法
裂纹
变量