基于状态压缩和无标注奖励的强化学习方法和系统

正文

推荐专利

申请号：CN202510598649

申请日期：2025-05-09

公开号：CN120494034B

公开日期：2025-10-03

类型：发明专利

摘要

本申请公开了一种基于状态压缩和无标注奖励的强化学习方法、系统和电子设备，该方法包括：接收模型输出的用户提示，将用户提示转换为结构化状态向量，状态向量包含任务目标、函数调用序列和环境反馈结果；将函数调用序列映射为复平面向量，基于复平面向量自动生成无标注奖励值；基于无标注奖励值，在模型训练引擎中采用低秩自适应网络对所述模型进行参数微调，通过令牌梯度优化策略进行批量训练；从模型生成的文本中识别并提取函数调用指令，将函数调用指令转换为工具API调用，将工具API调用的执行结果实时注入下一轮模型输入。本申请的方案提升了决策质量，优化资源效率，降低实施成本，实现应用场景可扩展。

技术关键词

强化学习方法强化学习系统令牌数据传输工具矩阵滑动窗口机制指令序列轨迹监控工具样本注意力机制文本训练语言模型可读存储介质网络批量电子设备模块策略

系统为您推荐了相关专利信息

基于大数据的寒地城市碳排放动态监测控制方法

监测控制方法大气污染物扩散模型大数据强度寒地城市

一种溢流污染快速响应的控制方法

变量线性回归模型指标水质监测数据特征选择

大交通流量下区段应急车道开放方法

决策动态车道开放方法周期滚动时域优化算法

一种管道检测机器人及其控制方法

管道检测机器人运动控制单元空气阻力系数计算方法状态空间模型

基于多模态数据融合的面瘫康复评估与治疗方法及系统

多模态数据融合艾灸穴位收集艾灸关键特征点视频

基于状态压缩和无标注奖励的强化学习方法和系统

站点导航

APP 下载