摘要
本申请提供了一种基于长短期反馈强化学习的生成式智能体环境交互方法,涉及生成式智能体领域,方法包括:构建生成式智能体,包括:评估模块、反思模块;通过生成式智能体观察环境,得到短时反馈;评估模块接收短时反馈,输出奖励信号;反思模块接收短时反馈和奖励信号,输出长期反馈;生成式智能体结合短时反馈和长期反馈进行动作决策,输出动作;环境接收动作,做出动作决策后,进入下一状态,完成一次生成式智能体环境交互。用SLM模型代替LLM模型,节省成本,提高反应速度,降低部署难度。
技术关键词
交互方法
微调方法
强化学习方法
网络接口
决策
模块
可读存储介质
信号
设备通信
电子设备
存储器
计算机
指令
处理器
参数
代表
算法
序列
定义