一种可提升对话模型效果的解码训练方法

正文

推荐专利

一种可提升对话模型效果的解码训练方法

申请号：CN202510165871

申请日期：2025-02-14

公开号：CN119623525A

公开日期：2025-03-14

类型：发明专利

摘要

本申请提供一种可提升对话模型效果的解码训练方法，包括：步骤1、数据输入：将一段包含n轮问题的对话、与所述n轮问题相关的知识以及所述问题的回复输入至大语言模型中；步骤2、数据预处理：所述大语言模型的嵌入向量层对输入的对话C、知识K和回复Y进行预处理，并分别输出问题向量、知识向量和回复向量；步骤3、大语言模型训练：以开源大模型作为大语言模型的基模型进行集成学习和训练；本申请方法通过定位学习重点、计算调整权重和修改交叉熵损失，提高了与给定知识高度相关Token位置的损失敏感度，从而模型在训练过程中对这些Token具有更高的关注度，实现了Token级别的知识约束。

技术关键词

大语言模型解码申请方法参数数据因子

系统为您推荐了相关专利信息

基于腻子刮抹装置结构三维仿真设计方法及系统

腻子三维空间模型三维仿真设计方法结构功能模块仿真分析

一种盾构机主轴承的故障诊断方法、装置及系统

盾构机主轴承故障诊断模型深度学习网络故障诊断方法一维卷积神经网络

一种用于子宫粘连图像的图像增强方法

图像增强方法子宫深度神经网络模型参数影像

一种边缘计算环境下的智能服务器管理方法及系统

服务器节点边缘计算环境智能服务器地理坐标信息资源预留

基于多头注意力的动态频率预测方法、系统、装置和介质

电力系统动态频率频率预测方法时序特征多头注意力机制虚拟惯量控制

一种可提升对话模型效果的解码训练方法

站点导航

APP 下载