奖励模型的获取方法、装置、设备及存储介质

正文

推荐专利

申请号：CN202510343399

申请日期：2025-03-21

公开号：CN120258139A

公开日期：2025-07-04

类型：发明专利

摘要

本发明实施例涉及人工智能技术领域，公开了一种奖励模型的获取方法、装置、设备及存储介质，方法为：获取用户的第一样本；将第一样本输入至初始双奖励模型，得到第一样本的第一表示向量集和第二表示向量集；基于预设相似度损失计算公式对第一表示向量集和第二表示向量集进行处理，得到目标损失值，预设相似度计算公式用于增加属于同一表示向量集中数据的相似度，减小属于不同表示向量集中数据的相似度；基于目标损失值调整初始双奖励模型的参数，以获取目标奖励模型，目标奖励模型用于确定出符合用户提问问题的最优答案。通过增强同一答案的相似度，降低不同答案的相似度，能够显著增强目标奖励模型的表示学习能力，提高了目标奖励模型的鲁棒性。

技术关键词

答案样本超参数标签人工智能技术处理器通信数据输入模块可读存储介质存储器鲁棒性电子设备指令计算机

系统为您推荐了相关专利信息

基于大模型的服装设计方法、系统、设备及存储介质

服装设计方法图像生成模型特征生成图像生成提示词文本

一种基于大模型训练的心电图数据处理方法、系统及存储介质

心电图数据处理矩阵分类器数据处理系统可读存储介质

基于神经网络的皮肤镜图像分类方法及系统

皮肤镜图像分类方法全局特征提取特征提取模块局部特征提取

一种废旧电路板高值元器件智能识别方法及系统

废旧电路板智能识别方法元器件图像时序预测模型

核电厂安全壳内气溶胶去除因子预测方法及装置

样本核电厂安全壳因子物理系统特征

奖励模型的获取方法、装置、设备及存储介质

站点导航

APP 下载