摘要
本申请公开了一种数学问答方法、装置、存储介质及设备,该方法包括:首先获取待答复的目标数学问题文本;然后将目标数学问题文本输入至预先构建的数学问答模型,预测得到答复目标数学问题的目标答案文本;其中,目标答案文本中包含针对目标数学问题的解答过程。由于本申请是先通过数据增强得到了质量更高、覆盖范围更广的多样化样本数学问答对,再基于近端策略优化的强化学习方法和过程奖励模型,利用样本数学问答对初始大语言模型进行训练生成了数学问答模型,有效提升了数学问答模型的答复精度和效率,从而在利用该模型对目标数学问题进行答复时,可以提高对于目标数学问题的答复效率和准确率,进而提高了用户的数学问答体验。
技术关键词
数学
问答模型
文本
强化学习方法
大语言模型
问答方法
样本
答案
可读存储介质
终端设备
问答装置
指令
策略
处理器
存储器
数据
计算机
程序
场景
误差
系统为您推荐了相关专利信息
知识图谱构建方法
坠落防护装备
命名实体识别
大语言模型
文本