目标模型的训练方法及装置

AITNT
正文
推荐专利
目标模型的训练方法及装置
申请号:CN202510741274
申请日期:2025-06-04
公开号:CN120745738A
公开日期:2025-10-03
类型:发明专利
摘要
本说明书实施例披露一种目标模型的训练方法及装置,其中目标模型用于生成用户画像标签。该方法包括:首先,利用第一样本集对所述目标模型进行第一训练,其中任意的第一样本包括用户消费数据和对应的用户画像标签,该目标模型被初始化为第一大语言模型;接着,利用第二样本集训练奖励模型,其中各个第二样本包括用户消费数据和用户画像标签的组合,以及该组合对应的奖励分数标签;之后,利用强化学习算法对目标模型进行第二训练,具体包括:将任意的用户消费数据输入目标模型,得到预测出的用户画像标签;将该用户消费数据和预测出的用户画像标签形成的组合输入奖励模型,得到预测奖励分数;利用该预测奖励分数对目标模型进行微调。
技术关键词
大语言模型 标签 样本 生成用户画像 强化学习算法 数据 模型训练模块 预训练模型 训练装置 计算机 可读存储介质 种子 存储器 处理器 基线 机制 线性 参数
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号