一种利用在线同步策略改进的大模型偏好对齐方法

正文

推荐专利

申请号：CN202411607834

申请日期：2024-11-12

公开号：CN119539082A

公开日期：2025-02-28

类型：发明专利

摘要

本发明提出一种利用在线同步策略改进的大模型偏好对齐方法，基于同步策略优化与在线学习的方法，提出了一种新的偏好对齐流程，从训练流程上进行改造，增加了同步采样和在线参数更新等环节，实现了模型训练过程中的奖励模型更新和数据分布对齐，最终实现金融问答能力的有效提升。本发明实现在保持原有方法高效性的基础上，可以有效缩小策略之间的分布差异，保证最优策略的优化方向，同时近似实时的更新偏好数据的监督信息，增强了高奖励制度中奖励模型的可靠性，更好的对齐人类偏好，从而保证在金融业务领域的可靠性、泛化性。

技术关键词

对齐方法策略在线 sigmoid函数代表离线生成参数模型更新数据分布标签指令金融令牌语义人类基础

系统为您推荐了相关专利信息

一种城镇燃气应急抢险方案智能推荐方法

城镇燃气管道智能推荐方法实体节点突发事件应急

一种硬盘异常实时监测方法及系统

历史运行数据指标实时监测方法监测需求曲线

一种用于控制会议装置升降的系统

话筒会议装置屏幕控制键盘参数

一种结合攻防博弈的电力物联网风险评估方法和系统

风险评估方法资产推理规则漏洞风险评估系统

一种保信主站的配置方法、系统、存储介质和电子设备

二次设备装置子站模型树变电站二次设备电网运维技术

一种利用在线同步策略改进的大模型偏好对齐方法

站点导航

APP 下载