角色扮演模型的训练方法、角色扮演方法、装置及设备

正文

推荐专利

申请号：CN202510975301

申请日期：2025-07-15

公开号：CN120893570A

公开日期：2025-11-04

类型：发明专利

摘要

本发明提供一种角色扮演模型的训练方法、角色扮演方法、装置及设备，其中方法包括：确定样本对集合中每个样本对对应的得分，基于所有得分的第一排序结果和所有样本对的标签的第二排序结果，对初始奖励模型进行训练，得到奖励参考模型，基于奖励参考模型的模型参数以及样本对话数据，对初始角色扮演模型进行语言风格强化训练，得到角色扮演模型。该方法中奖励参考模型通过得分排序训练能够准确区分与角色相关，以及与角色不相关的候选回答，再基于奖励参考模型的模型参数以及样本对话数据，训练得到角色扮演模型，使得初始角色扮演模型具备与奖励参考模型一样的判别能力，从而实现角色扮演模型的高保真度、高一致性的可复用角色扮演能力。

技术关键词

角色扮演方法样本多轮对话大语言模型风格角色扮演装置排序损失数据非暂态计算机可读存储介质文本画像标签参数处理器训练装置存储器客户端电子设备逻辑模块

角色扮演模型的训练方法、角色扮演方法、装置及设备

站点导航

APP 下载