一种利用在线同步策略改进的大模型偏好对齐方法

AITNT
正文
推荐专利
一种利用在线同步策略改进的大模型偏好对齐方法
申请号:CN202411607834
申请日期:2024-11-12
公开号:CN119539082A
公开日期:2025-02-28
类型:发明专利
摘要
本发明提出一种利用在线同步策略改进的大模型偏好对齐方法,基于同步策略优化与在线学习的方法,提出了一种新的偏好对齐流程,从训练流程上进行改造,增加了同步采样和在线参数更新等环节,实现了模型训练过程中的奖励模型更新和数据分布对齐,最终实现金融问答能力的有效提升。本发明实现在保持原有方法高效性的基础上,可以有效缩小策略之间的分布差异,保证最优策略的优化方向,同时近似实时的更新偏好数据的监督信息,增强了高奖励制度中奖励模型的可靠性,更好的对齐人类偏好,从而保证在金融业务领域的可靠性、泛化性。
技术关键词
对齐方法 策略 在线 sigmoid函数 代表 离线 生成参数 模型更新 数据分布 标签 指令 金融 令牌 语义 人类 基础
系统为您推荐了相关专利信息
1
一种城镇燃气应急抢险方案智能推荐方法
城镇燃气管道 智能推荐方法 实体 节点 突发事件应急
2
一种硬盘异常实时监测方法及系统
历史运行数据 指标 实时监测方法 监测需求 曲线
3
一种用于控制会议装置升降的系统
话筒 会议装置 屏幕 控制键盘 参数
4
一种结合攻防博弈的电力物联网风险评估方法和系统
风险评估方法 资产 推理规则 漏洞 风险评估系统
5
一种保信主站的配置方法、系统、存储介质和电子设备
二次设备装置 子站 模型树 变电站二次设备 电网运维技术
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号