摘要
本发明提供一种角色扮演模型的训练方法、角色扮演方法、装置及设备,其中方法包括:确定样本对集合中每个样本对对应的得分,基于所有得分的第一排序结果和所有样本对的标签的第二排序结果,对初始奖励模型进行训练,得到奖励参考模型,基于奖励参考模型的模型参数以及样本对话数据,对初始角色扮演模型进行语言风格强化训练,得到角色扮演模型。该方法中奖励参考模型通过得分排序训练能够准确区分与角色相关,以及与角色不相关的候选回答,再基于奖励参考模型的模型参数以及样本对话数据,训练得到角色扮演模型,使得初始角色扮演模型具备与奖励参考模型一样的判别能力,从而实现角色扮演模型的高保真度、高一致性的可复用角色扮演能力。
技术关键词
角色扮演方法
样本
多轮对话
大语言模型
风格
角色扮演装置
排序损失
数据
非暂态计算机可读存储介质
文本
画像
标签
参数
处理器
训练装置
存储器
客户端
电子设备
逻辑
模块