摘要
本申请公开了一种基于状态压缩和无标注奖励的强化学习方法、系统和电子设备,该方法包括:接收模型输出的用户提示,将用户提示转换为结构化状态向量,状态向量包含任务目标、函数调用序列和环境反馈结果;将函数调用序列映射为复平面向量,基于复平面向量自动生成无标注奖励值;基于无标注奖励值,在模型训练引擎中采用低秩自适应网络对所述模型进行参数微调,通过令牌梯度优化策略进行批量训练;从模型生成的文本中识别并提取函数调用指令,将函数调用指令转换为工具API调用,将工具API调用的执行结果实时注入下一轮模型输入。本申请的方案提升了决策质量,优化资源效率,降低实施成本,实现应用场景可扩展。
技术关键词
强化学习方法
强化学习系统
令牌
数据传输工具
矩阵
滑动窗口机制
指令
序列
轨迹
监控工具
样本
注意力机制
文本
训练语言模型
可读存储介质
网络
批量
电子设备
模块
策略
系统为您推荐了相关专利信息
监测控制方法
大气污染物扩散模型
大数据
强度
寒地城市
管道检测机器人
运动控制单元
空气阻力系数
计算方法
状态空间模型
多模态数据融合
艾灸穴位
收集艾灸
关键特征点
视频