一种面向自主智能体的大语言模型元认知修正自更新奖励方法

AITNT
正文
推荐专利
一种面向自主智能体的大语言模型元认知修正自更新奖励方法
申请号:CN202511044211
申请日期:2025-07-28
公开号:CN120930716A
公开日期:2025-11-11
类型:发明专利
摘要
本发明涉及一种面向自主智能体的大语言模型元认知修正自更新奖励方法,AURA(Auto‑Updating Reward Architecture)首先通过利用大型语言模型(Large Language Models,LLM)根据高层任务描述自动生成初始奖励函数,再由双循环架构实现计算上的元认知:一个快速的内循环通过分层注意力奖励合成器进行策略与奖励的协同演化;而一个较慢的外循环则作为元认知层,持续监控一个由策略动态、价值‑真实性对齐和奖励架构适应性构成的多维诊断向量,以识别学习过程中的异常。这种闭环反馈机制赋予了自主智能体对其自身奖励函数进行内省和自我修正的能力,构成了从静态目标规约到动态目标矫正的范式转变。增强了智能体在面对稀疏奖励、规约漏洞和环境不确定性时的鲁棒性、样本效率与最终性能。
技术关键词
奖励方法 因子 策略 数学 参数 概率密度函数 网络 分层注意力 多头注意力机制 动态 静态代码分析技术 自然语言 重构模块 高层次 定义 时序 语义 指令 表达式
系统为您推荐了相关专利信息
1
一种基于地质约束的测井参数融合聚类的成岩相识别方法
测井 识别方法 无监督机器学习 数据 参数
2
一种矿山智能爆破管理系统及方法
三维实景模型 矿山岩体 矿山智能爆破管理系统 岩体模型 决策
3
财务数据的同步方法、设备及存储介质
财务管理系统 同步方法 验证系统 容器 集群
4
一种智能传染病教育内容生成系统
内容生成系统 BERT模型 正确率 内容生成技术 因子
5
多尺度微观损伤观测驱动的宏观渐进损伤智能评价方法
循环神经网络模型 连续损伤力学 智能评价方法 裂纹 变量
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号