摘要
本发明涉及人工智能技术领域,公开了基于因果大语言模型的强化学习决策优化方法、系统及设备,包括以下步骤:初始化智能体及其策略网络;获取交互产生的历史序列决策的轨迹信息;采用大语言模型从轨迹信息中提取因果变量,构建结构因果模型;得到智能体策略驱动因果干预机制,动态修正结构因果模型中的因果关系;根据修正后的结构因果模型中提取的任务相关因果链,生成与因果关系对应的语义子目标;设计融合语义相似度的多模态奖励函数;采用得到的子目标与奖励更新策略网络。本发明解决现有技术中强化学习智能体在复杂环境中的低学习效率、适应性不足以及缺乏有效推理能力的问题,且具有在动态环境中的决策效率高的特点。
技术关键词
大语言模型
决策优化方法
动态修正结构
策略
融合语义
变量
轨迹
网络
空间拓扑关系
图像多模态
序列
计算机设备
人工智能技术
语义向量
生成指令
文本
预测误差
系统为您推荐了相关专利信息
入侵检测方法
客户端
智能电网
事件触发机制
入侵检测模型
功率分配策略
功耗
贝叶斯网络模型
电源管理器
异构设备