一种面向自主智能体的大语言模型元认知修正自更新奖励方法

正文

推荐专利

申请号：CN202511044211

申请日期：2025-07-28

公开号：CN120930716A

公开日期：2025-11-11

类型：发明专利

摘要

本发明涉及一种面向自主智能体的大语言模型元认知修正自更新奖励方法，AURA(Auto‑Updating Reward Architecture)首先通过利用大型语言模型(Large Language Models，LLM)根据高层任务描述自动生成初始奖励函数，再由双循环架构实现计算上的元认知：一个快速的内循环通过分层注意力奖励合成器进行策略与奖励的协同演化；而一个较慢的外循环则作为元认知层，持续监控一个由策略动态、价值‑真实性对齐和奖励架构适应性构成的多维诊断向量，以识别学习过程中的异常。这种闭环反馈机制赋予了自主智能体对其自身奖励函数进行内省和自我修正的能力，构成了从静态目标规约到动态目标矫正的范式转变。增强了智能体在面对稀疏奖励、规约漏洞和环境不确定性时的鲁棒性、样本效率与最终性能。

技术关键词

奖励方法因子策略数学参数概率密度函数网络分层注意力多头注意力机制动态静态代码分析技术自然语言重构模块高层次定义时序语义指令表达式

系统为您推荐了相关专利信息

一种基于地质约束的测井参数融合聚类的成岩相识别方法

测井识别方法无监督机器学习数据参数

一种矿山智能爆破管理系统及方法

三维实景模型矿山岩体矿山智能爆破管理系统岩体模型决策

财务数据的同步方法、设备及存储介质

财务管理系统同步方法验证系统容器集群

一种智能传染病教育内容生成系统

内容生成系统 BERT模型正确率内容生成技术因子

多尺度微观损伤观测驱动的宏观渐进损伤智能评价方法

循环神经网络模型连续损伤力学智能评价方法裂纹变量

一种面向自主智能体的大语言模型元认知修正自更新奖励方法

站点导航

APP 下载