摘要
本发明实施例涉及人工智能技术领域,公开了一种奖励模型的获取方法、装置、设备及存储介质,方法为:获取用户的第一样本;将第一样本输入至初始双奖励模型,得到第一样本的第一表示向量集和第二表示向量集;基于预设相似度损失计算公式对第一表示向量集和第二表示向量集进行处理,得到目标损失值,预设相似度计算公式用于增加属于同一表示向量集中数据的相似度,减小属于不同表示向量集中数据的相似度;基于目标损失值调整初始双奖励模型的参数,以获取目标奖励模型,目标奖励模型用于确定出符合用户提问问题的最优答案。通过增强同一答案的相似度,降低不同答案的相似度,能够显著增强目标奖励模型的表示学习能力,提高了目标奖励模型的鲁棒性。
技术关键词
答案
样本
超参数
标签
人工智能技术
处理器通信
数据
输入模块
可读存储介质
存储器
鲁棒性
电子设备
指令
计算机
系统为您推荐了相关专利信息
服装设计方法
图像生成模型
特征生成图像
生成提示词
文本
心电图数据处理
矩阵
分类器
数据处理系统
可读存储介质
皮肤镜
图像分类方法
全局特征提取
特征提取模块
局部特征提取
废旧电路板
智能识别方法
元器件
图像
时序预测模型