基于多标准偏好学习的智能内容评估与优化方法及系统

正文

推荐专利

申请号：CN202510988724

申请日期：2025-07-17

公开号：CN120494074B

公开日期：2025-10-03

类型：发明专利

摘要

本发明涉及人工智能技术领域，尤其是指基于多标准偏好学习的智能内容评估与优化方法及系统，所述方法包括：构建目标用户偏好数据，生成包含评价细则和判断结果的评估轨迹；基于评估轨迹，通过排序和一致性规则筛选样本并分配信用，得到偏好对训练数据；采用响应监督微调与直接偏好优化策略联合训练生成式奖励模型；将原始评估轨迹重组为交替的接受与拒绝样本，形成长思维链训练数据，进一步训练得到最终模型；通过最终模型评估并优化生成文本与用户偏好的对齐程度。本发明通过多阶段优化与过程监督，提升了语言模型与人类偏好的对齐度及整体性能，解决了传统奖励模型的复合误差、数据稀疏等问题，在分布外评估中表现优异。

技术关键词

内容评估样本轨迹计算机软件产品数据计算机存储介质 sigmoid函数策略总线系统执行存储器存储文本复合误差人工智能技术节点电子设备模块标签处理器多阶段

基于多标准偏好学习的智能内容评估与优化方法及系统

站点导航

APP 下载