奖励模型的获取方法、装置、设备及存储介质

AITNT
正文
推荐专利
奖励模型的获取方法、装置、设备及存储介质
申请号:CN202510343399
申请日期:2025-03-21
公开号:CN120258139A
公开日期:2025-07-04
类型:发明专利
摘要
本发明实施例涉及人工智能技术领域,公开了一种奖励模型的获取方法、装置、设备及存储介质,方法为:获取用户的第一样本;将第一样本输入至初始双奖励模型,得到第一样本的第一表示向量集和第二表示向量集;基于预设相似度损失计算公式对第一表示向量集和第二表示向量集进行处理,得到目标损失值,预设相似度计算公式用于增加属于同一表示向量集中数据的相似度,减小属于不同表示向量集中数据的相似度;基于目标损失值调整初始双奖励模型的参数,以获取目标奖励模型,目标奖励模型用于确定出符合用户提问问题的最优答案。通过增强同一答案的相似度,降低不同答案的相似度,能够显著增强目标奖励模型的表示学习能力,提高了目标奖励模型的鲁棒性。
技术关键词
答案 样本 超参数 标签 人工智能技术 处理器通信 数据 输入模块 可读存储介质 存储器 鲁棒性 电子设备 指令 计算机
系统为您推荐了相关专利信息
1
基于大模型的服装设计方法、系统、设备及存储介质
服装设计方法 图像生成模型 特征生成图像 生成提示词 文本
2
一种基于大模型训练的心电图数据处理方法、系统及存储介质
心电图数据处理 矩阵 分类器 数据处理系统 可读存储介质
3
基于神经网络的皮肤镜图像分类方法及系统
皮肤镜 图像分类方法 全局特征提取 特征提取模块 局部特征提取
4
一种废旧电路板高值元器件智能识别方法及系统
废旧电路板 智能识别方法 元器件 图像 时序预测模型
5
核电厂安全壳内气溶胶去除因子预测方法及装置
样本 核电厂安全壳 因子 物理 系统特征
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号