摘要
本申请涉及人工智能领域,具体公开了一种文本处理模型的处理方法、文本处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。方法包括:获取待训练的文本处理策略模型针对提示信息输出的多个答复内容信息,得到多个输入输出组;将各输入输出组输入至预训练的矢量奖励模型,输出各输入输出组对应的偏好评估排序信息;根据各输入输出组对应的偏好评估排序信息,确定待训练的文本处理策略模型的损失值;根据损失值调整待训练的文本处理策略模型,得到调整后的文本处理策略模型,返回获取待训练的文本处理策略模型针对提示信息输出的多个答复内容信息的步骤,直到满足训练结束条件。采用本方法能够提高文本处理的准确性。
技术关键词
策略
文本处理模型
文本处理方法
计算机设备
计算机程序产品
文本处理装置
可读存储介质
处理器
输出模块
参数
存储器
系统为您推荐了相关专利信息
文本生成图像方法
语义向量
生成图像特征
策略
多层感知机
网络设备自动升级
数据分析方法
时序预测模型
序列
策略
控制管理系统
储能单元
储能系统
集成控制模块
机器学习算法分析