摘要
本发明提供一种对话模型训练方法、对话方法、系统、设备及介质,涉及人机交互技术领域,该方法包括:根据样本对话中的当前样本用户输入信息和历史样本对话信息,生成当前样本对话状态信息;基于待训练策略网络和待训练价值网络进行树搜索,得到当前样本回复动作信息,以及当前样本回复动作信息对应的对话轨迹的全局奖励值;根据当前样本回复动作信息模拟生成的下一样本对话状态信息、当前样本对话状态信息、当前样本回复动作信息和全局奖励值,构建样本数据;根据样本数据,对待训练策略网络和待训练价值网络进行联合训练,以构建对话模型。本发明实现在对话时综合考虑长期回报和策略优化,由此提升多轮对话的生成质量、交互能力和用户体验感。
技术关键词
模型训练方法
样本
对话方法
网络
策略
轨迹
模型训练系统
人机交互技术
对话系统
多轮对话
处理器
生成用户
数据
存储器
节点
电子设备
介质
标签
系统为您推荐了相关专利信息
机械式压力表
接口端
压力表接口
数据特征提取
模型训练模块
循迹控制方法
履带机器人
PID调节器
偏差
控制策略
水电站水库水位
预测分析方法
神经网络模型
网格
水文
参数智能优化方法
压铸设备
压铸件
新能源汽车
数字孪生模型