混合自适应强化微调方法、系统和装置

正文

推荐专利

混合自适应强化微调方法、系统和装置

申请号：CN202511085070

申请日期：2025-08-04

公开号：CN120952178A

公开日期：2025-11-14

类型：发明专利

摘要

本发明公开了混合自适应强化微调方法、系统和装置，涉及人工智能技术领域，尤其适用于大语言模型的深度推理任务。针对现有强化学习算法存在的响应级别长度偏差、问题难度级别偏差、探索效率不足及样本利用不充分等问题。本方法包括数据预处理、初始化模型参数和参考策略、生成多个响应、计算奖励、计算并修正优势、更新模型策略、调整采样概率及迭代优化步骤。其中，通过引入长度归一化因子和难度归一化因子修正优势，结合混合裁剪机制和自适应采样策略更新模型，确保所有潜在有用样本被充分利用。本发明有效消除偏差，提升模型推理能力和训练效率，增强长推理任务探索能力，适应多样化任务需求。

技术关键词

微调方法策略更新因子强化学习算法微调系统可读存储介质样本人工智能技术模块机制微调装置数据参数处理器偏差动态存储器计算机标记

系统为您推荐了相关专利信息

一种智能电能传播技术系统

寿命预测模型 S变换特征提取电缆老化曲线加窗短时傅里叶变换

新能源赋能无蜂窝大规模MIMO高能效接入点选择和功率分配方法

功率分配方法能效迭代优化算法功耗变量

基于新媒体环境的摄影参数适应性调控方法及系统

拍摄物最佳参数组合调控方法媒体饱和度

一种牵引车空气悬架调节的控制方法、系统及介质

空气悬架转移概率矩阵牵引车特征数据信息车辆前轴

轨道交通建设安全隐患识别模型高效微调方法及系统

神经网络参数微调方法神经网络模型原始图像数据模块

混合自适应强化微调方法、系统和装置

站点导航

APP 下载