基于多标准偏好学习的智能内容评估与优化方法及系统

AITNT
正文
推荐专利
基于多标准偏好学习的智能内容评估与优化方法及系统
申请号:CN202510988724
申请日期:2025-07-17
公开号:CN120494074B
公开日期:2025-10-03
类型:发明专利
摘要
本发明涉及人工智能技术领域,尤其是指基于多标准偏好学习的智能内容评估与优化方法及系统,所述方法包括:构建目标用户偏好数据,生成包含评价细则和判断结果的评估轨迹;基于评估轨迹,通过排序和一致性规则筛选样本并分配信用,得到偏好对训练数据;采用响应监督微调与直接偏好优化策略联合训练生成式奖励模型;将原始评估轨迹重组为交替的接受与拒绝样本,形成长思维链训练数据,进一步训练得到最终模型;通过最终模型评估并优化生成文本与用户偏好的对齐程度。本发明通过多阶段优化与过程监督,提升了语言模型与人类偏好的对齐度及整体性能,解决了传统奖励模型的复合误差、数据稀疏等问题,在分布外评估中表现优异。
技术关键词
内容评估 样本 轨迹 计算机软件产品 数据 计算机存储介质 sigmoid函数 策略 总线系统 执行存储器存储 文本 复合误差 人工智能技术 节点 电子设备 模块 标签 处理器 多阶段
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号