基于因果大语言模型的强化学习决策优化方法、系统及设备

正文

推荐专利

申请号：CN202510944141

申请日期：2025-07-09

公开号：CN120911539A

公开日期：2025-11-07

类型：发明专利

摘要

本发明涉及人工智能技术领域，公开了基于因果大语言模型的强化学习决策优化方法、系统及设备，包括以下步骤：初始化智能体及其策略网络；获取交互产生的历史序列决策的轨迹信息；采用大语言模型从轨迹信息中提取因果变量，构建结构因果模型；得到智能体策略驱动因果干预机制，动态修正结构因果模型中的因果关系；根据修正后的结构因果模型中提取的任务相关因果链，生成与因果关系对应的语义子目标；设计融合语义相似度的多模态奖励函数；采用得到的子目标与奖励更新策略网络。本发明解决现有技术中强化学习智能体在复杂环境中的低学习效率、适应性不足以及缺乏有效推理能力的问题，且具有在动态环境中的决策效率高的特点。

技术关键词

大语言模型决策优化方法动态修正结构策略融合语义变量轨迹网络空间拓扑关系图像多模态序列计算机设备人工智能技术语义向量生成指令文本预测误差

系统为您推荐了相关专利信息

一种基于事件触发的智能电网入侵检测方法及系统

入侵检测方法客户端智能电网事件触发机制入侵检测模型

将SD-WAN构造与安全策略集成

控制器路由器虚拟专用网络分支标签

基于电源管理的通信设备优化方法及装置

功率分配策略功耗贝叶斯网络模型电源管理器异构设备

一种用于板材加工的调度方法

基因算法板材开料设备排版订单

一种基于大数据分析的信息化项目管理系统

项目管理系统图谱数据采集模块资源分配聚类

基于因果大语言模型的强化学习决策优化方法、系统及设备

站点导航

APP 下载