摘要
本发明涉及人工智能技术领域,尤其是指基于多标准偏好学习的智能内容评估与优化方法及系统,所述方法包括:构建目标用户偏好数据,生成包含评价细则和判断结果的评估轨迹;基于评估轨迹,通过排序和一致性规则筛选样本并分配信用,得到偏好对训练数据;采用响应监督微调与直接偏好优化策略联合训练生成式奖励模型;将原始评估轨迹重组为交替的接受与拒绝样本,形成长思维链训练数据,进一步训练得到最终模型;通过最终模型评估并优化生成文本与用户偏好的对齐程度。本发明通过多阶段优化与过程监督,提升了语言模型与人类偏好的对齐度及整体性能,解决了传统奖励模型的复合误差、数据稀疏等问题,在分布外评估中表现优异。
技术关键词
内容评估
样本
轨迹
计算机软件产品
数据
计算机存储介质
sigmoid函数
策略
总线系统
执行存储器存储
文本
复合误差
人工智能技术
节点
电子设备
模块
标签
处理器
多阶段