摘要
本申请提供一种话术选择模型的训练方法、装置及相关设备,所述方法包括:获取训练数据集;基于所述训练数据集对预训练的第一话术选择模型进行模型微调,得到第二话术选择模型;基于奖励模型和所述训练数据集,对所述第二话术选择模型进行强化学习,得到第三话术选择模型。本申请通过获取包括多个对话文本的训练数据集,由此基于训练数据集对预训练的话术选择模型进行模型微调,以及基于奖励模型和所述训练数据集对所述话术选择模型进行强化学习,由此通过模型微调和强化学习两个方面提高了话术选择模型生成的话术回答时的质量和效率。
技术关键词
文本
数据
样本
意图
模版
训练装置
存储器
匹配模块
处理器
数值
格式
电子设备
聚类
策略
算法
程序
系统为您推荐了相关专利信息
光学测试系统
光轴检测装置
光学元件
测试方法
人工智能模型
电气自动化控制系统
电容器老化
远程通信单元
状态监控模块
短时傅里叶变换
循环水养殖系统
智能调控方法
关键控制参数
水质
人工湿地