摘要
本申请实施例提供了一种角色扮演模型的训练方法,该角色扮演模型的训练方法包括:获取多个角色的对话数据集和角色设定集,并基于所述多个角色的对话数据集和角色设定集构建多组训练数据;基于所述多组训练数据,对预先训练好的基座模型进行监督微调,得到初始角色扮演模型;获取偏好数据集,并基于所述偏好数据集对所述初始角色扮演模型进行偏好优化,得到目标角色扮演模型。本申请实施例提供的训练方法分阶段进行,每个阶段构建不同的训练样本用来优化基座模型,使模型可以对齐角色扮演任务、人类偏好和价值观,最终得到在对话能力、角色一致性和角色扮演吸引力等方面表现优秀的角色扮演模型。
技术关键词
文本
数据
角色扮演方法
预训练模型
角色扮演装置
多轮对话
预训练语言模型
基座
可读存储介质
计算机程序产品
训练装置
处理器通信
指令
计算机设备
媒体
模块
分阶段
存储器