摘要
本申请涉及人工智能技术领域,提供了一种大语言模型优化方法和优化装置。该方法通过在预训练大语言模型中输入问题得到候选答案,计算候选答案的第一奖励值、第二奖励值和第三奖励值,其中第一奖励值用于表征候选答案的基础奖励,第二奖励值用于表征候选答案与问题的契合度,第三奖励值用于表征候选答案与用户偏好的对齐程度,然后对第一奖励值、第二奖励值和第三奖励值进行多头融合,得到目标奖励值,最后基于目标奖励值训练预训练大语言模型,得到优化后的大语言模型,实现了以多头分层的方式自适应学习大语言模型不同层次的奖励机制的重要性系数,进而提高了模型训练效率,提升了训练后的模型的生成质量。
技术关键词
大语言模型
答案
Softmax函数
温度控制策略
优化装置
基础
序列
人工智能技术
线性
输入模块
标记
指数
样本
动态
数据
主题
分层
机制
系统为您推荐了相关专利信息
点击率预测方法
上下文特征
广告点击率预测
兴趣
预测广告点击率
场景测试方法
测试场景
大语言模型
知识库管理系统
仿真软件
大语言模型
文本检测模型
重构
特征提取器
分类器