奖励模型的训练方法、答案评价方法和装置

AITNT
正文
推荐专利
奖励模型的训练方法、答案评价方法和装置
申请号:CN202411965448
申请日期:2024-12-30
公开号:CN119849635A
公开日期:2025-04-18
类型:发明专利
摘要
本发明提供一种奖励模型的训练方法、答案评价方法和装置,涉及人工智能技术领域。其中奖励模型的训练方法包括:将原始训练样本和提示文本输入至初始奖励模型,得到初始奖励模型输出的第一推理原理和第一评分;提示文本包括推理原理生成要求文本,推理原理生成要求文本包括推理原理的生成要求信息,推理原理用于指示初始奖励模型在进行评分时需遵循的推理逻辑;基于原始训练样本、第一推理原理和第一评分,微调初始奖励模型,以得到奖励模型;其中,初始奖励模型为预训练的大语言模型。本发明可以提高奖励模型的性能,最终提高基于奖励模型强化的答案生成模型的性能,即提高答案生成模型的生成准确性。
技术关键词
答案 文本 评价方法 样本 非暂态计算机可读存储介质 标签 处理器 人工智能技术 格式 计算机程序产品 评价装置 数据 训练装置 逻辑 输入模块 存储器 电子设备
系统为您推荐了相关专利信息
1
基于大模型的跨模态问答处理方法、装置及存储介质
语音问答系统 文本 大语言模型 语音编码器 答案
2
基于NiN混合稠密残差网络的加密流量检测方法与系统
加密流量检测方法 残差网络 残差模块 输入端 输出端
3
一种基于Prompt的空调控制方法
空调控制方法 大语言模型 生成控制指令 文本 聚类
4
一种图像处理模型的训练方法、装置、设备以及介质
图像处理模型 参数更新模块 计算机可读指令 样本 训练装置
5
智能体唤醒时机的识别方法、装置、设备、介质及产品
意图 多模态 语音 识别方法 标志位
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号