摘要
本申请提供一种可提升对话模型效果的解码训练方法,包括:步骤1、数据输入:将一段包含n轮问题的对话、与所述n轮问题相关的知识以及所述问题的回复输入至大语言模型中;步骤2、数据预处理:所述大语言模型的嵌入向量层对输入的对话C、知识K和回复Y进行预处理,并分别输出问题向量、知识向量和回复向量;步骤3、大语言模型训练:以开源大模型作为大语言模型的基模型进行集成学习和训练;本申请方法通过定位学习重点、计算调整权重和修改交叉熵损失,提高了与给定知识高度相关Token位置的损失敏感度,从而模型在训练过程中对这些Token具有更高的关注度,实现了Token级别的知识约束。
技术关键词
大语言模型
解码
申请方法
参数
数据
因子
系统为您推荐了相关专利信息
腻子
三维空间模型
三维仿真设计方法
结构功能模块
仿真分析
盾构机主轴承
故障诊断模型
深度学习网络
故障诊断方法
一维卷积神经网络
服务器节点
边缘计算环境
智能服务器
地理坐标信息
资源预留
电力系统动态频率
频率预测方法
时序特征
多头注意力机制
虚拟惯量控制