混合自适应强化微调方法、系统和装置

AITNT
正文
推荐专利
混合自适应强化微调方法、系统和装置
申请号:CN202511085070
申请日期:2025-08-04
公开号:CN120952178A
公开日期:2025-11-14
类型:发明专利
摘要
本发明公开了混合自适应强化微调方法、系统和装置,涉及人工智能技术领域,尤其适用于大语言模型的深度推理任务。针对现有强化学习算法存在的响应级别长度偏差、问题难度级别偏差、探索效率不足及样本利用不充分等问题。本方法包括数据预处理、初始化模型参数和参考策略、生成多个响应、计算奖励、计算并修正优势、更新模型策略、调整采样概率及迭代优化步骤。其中,通过引入长度归一化因子和难度归一化因子修正优势,结合混合裁剪机制和自适应采样策略更新模型,确保所有潜在有用样本被充分利用。本发明有效消除偏差,提升模型推理能力和训练效率,增强长推理任务探索能力,适应多样化任务需求。
技术关键词
微调方法 策略更新 因子 强化学习算法 微调系统 可读存储介质 样本 人工智能技术 模块 机制 微调装置 数据 参数 处理器 偏差 动态 存储器 计算机 标记
系统为您推荐了相关专利信息
1
一种智能电能传播技术系统
寿命预测模型 S变换特征提取 电缆老化 曲线 加窗短时傅里叶变换
2
新能源赋能无蜂窝大规模MIMO高能效接入点选择和功率分配方法
功率分配方法 能效 迭代优化算法 功耗 变量
3
基于新媒体环境的摄影参数适应性调控方法及系统
拍摄物 最佳参数组合 调控方法 媒体 饱和度
4
一种牵引车空气悬架调节的控制方法、系统及介质
空气悬架 转移概率矩阵 牵引车 特征数据信息 车辆前轴
5
轨道交通建设安全隐患识别模型高效微调方法及系统
神经网络参数 微调方法 神经网络模型 原始图像数据 模块
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号