基于状态压缩和无标注奖励的强化学习方法和系统

AITNT
正文
推荐专利
基于状态压缩和无标注奖励的强化学习方法和系统
申请号:CN202510598649
申请日期:2025-05-09
公开号:CN120494034B
公开日期:2025-10-03
类型:发明专利
摘要
本申请公开了一种基于状态压缩和无标注奖励的强化学习方法、系统和电子设备,该方法包括:接收模型输出的用户提示,将用户提示转换为结构化状态向量,状态向量包含任务目标、函数调用序列和环境反馈结果;将函数调用序列映射为复平面向量,基于复平面向量自动生成无标注奖励值;基于无标注奖励值,在模型训练引擎中采用低秩自适应网络对所述模型进行参数微调,通过令牌梯度优化策略进行批量训练;从模型生成的文本中识别并提取函数调用指令,将函数调用指令转换为工具API调用,将工具API调用的执行结果实时注入下一轮模型输入。本申请的方案提升了决策质量,优化资源效率,降低实施成本,实现应用场景可扩展。
技术关键词
强化学习方法 强化学习系统 令牌 数据传输工具 矩阵 滑动窗口机制 指令 序列 轨迹 监控工具 样本 注意力机制 文本 训练语言模型 可读存储介质 网络 批量 电子设备 模块 策略
系统为您推荐了相关专利信息
1
基于大数据的寒地城市碳排放动态监测控制方法
监测控制方法 大气污染物扩散模型 大数据 强度 寒地城市
2
一种溢流污染快速响应的控制方法
变量 线性回归模型 指标 水质监测数据 特征选择
3
大交通流量下区段应急车道开放方法
决策 动态车道 开放方法 周期 滚动时域优化算法
4
一种管道检测机器人及其控制方法
管道检测机器人 运动控制单元 空气阻力系数 计算方法 状态空间模型
5
基于多模态数据融合的面瘫康复评估与治疗方法及系统
多模态数据融合 艾灸穴位 收集艾灸 关键特征点 视频
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号