基于因果大语言模型的强化学习决策优化方法、系统及设备

AITNT
正文
推荐专利
基于因果大语言模型的强化学习决策优化方法、系统及设备
申请号:CN202510944141
申请日期:2025-07-09
公开号:CN120911539A
公开日期:2025-11-07
类型:发明专利
摘要
本发明涉及人工智能技术领域,公开了基于因果大语言模型的强化学习决策优化方法、系统及设备,包括以下步骤:初始化智能体及其策略网络;获取交互产生的历史序列决策的轨迹信息;采用大语言模型从轨迹信息中提取因果变量,构建结构因果模型;得到智能体策略驱动因果干预机制,动态修正结构因果模型中的因果关系;根据修正后的结构因果模型中提取的任务相关因果链,生成与因果关系对应的语义子目标;设计融合语义相似度的多模态奖励函数;采用得到的子目标与奖励更新策略网络。本发明解决现有技术中强化学习智能体在复杂环境中的低学习效率、适应性不足以及缺乏有效推理能力的问题,且具有在动态环境中的决策效率高的特点。
技术关键词
大语言模型 决策优化方法 动态修正结构 策略 融合语义 变量 轨迹 网络 空间拓扑关系 图像多模态 序列 计算机设备 人工智能技术 语义向量 生成指令 文本 预测误差
系统为您推荐了相关专利信息
1
一种基于事件触发的智能电网入侵检测方法及系统
入侵检测方法 客户端 智能电网 事件触发机制 入侵检测模型
2
将SD-WAN构造与安全策略集成
控制器 路由器 虚拟专用网络 分支 标签
3
基于电源管理的通信设备优化方法及装置
功率分配策略 功耗 贝叶斯网络模型 电源管理器 异构设备
4
一种用于板材加工的调度方法
基因算法 板材 开料设备 排版 订单
5
一种基于大数据分析的信息化项目管理系统
项目管理系统 图谱 数据采集模块 资源分配 聚类
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号