摘要
本说明书实施例提供问答模型训练方法、文本处理方法及奖励模型训练方法,其中所述问答模型训练方法包括:在问答样本对中提取样本问题,并确定所述样本问题对应的思维链数据;利用所述思维链数据将所述样本问题更新为目标样本问题,并将所述目标样本问题输入至初始问答模型进行处理,获得预测答案;利用所述初始问答模型关联的奖励模型根据所述问答样本对中的样本答案,对所述预测答案进行打分,获得优化分值;基于所述优化分值对所述初始问答模型进行调参,直至获得满足训练停止条件的目标问答模型。
技术关键词
问答模型训练方法
样本
答案
序列
计算机可执行指令
文本处理方法
文本处理装置
客户端
模型训练装置
模块
数据
处理器
计算机程序产品
思路
可读存储介质
系统为您推荐了相关专利信息
数字化仓储系统
汽车零部件
数据存储模块
数据分析模块
数据采集模块
管理方法
数据
重构误差
神经网络模型
更新网络参数
集成分析系统
物体
集成分析方法
节奏特征
图像采集设备
判别电梯
机器学习模型
电梯运行模式
历史故障数据
时间序列分析方法
句法结构
文本处理方法
训练语言模型
语义角色标注
文本处理装置