一种可提升对话模型效果的解码训练方法

AITNT
正文
推荐专利
一种可提升对话模型效果的解码训练方法
申请号:CN202510165871
申请日期:2025-02-14
公开号:CN119623525A
公开日期:2025-03-14
类型:发明专利
摘要
本申请提供一种可提升对话模型效果的解码训练方法,包括:步骤1、数据输入:将一段包含n轮问题的对话、与所述n轮问题相关的知识以及所述问题的回复输入至大语言模型中;步骤2、数据预处理:所述大语言模型的嵌入向量层对输入的对话C、知识K和回复Y进行预处理,并分别输出问题向量、知识向量和回复向量;步骤3、大语言模型训练:以开源大模型作为大语言模型的基模型进行集成学习和训练;本申请方法通过定位学习重点、计算调整权重和修改交叉熵损失,提高了与给定知识高度相关Token位置的损失敏感度,从而模型在训练过程中对这些Token具有更高的关注度,实现了Token级别的知识约束。
技术关键词
大语言模型 解码 申请方法 参数 数据 因子
系统为您推荐了相关专利信息
1
基于腻子刮抹装置结构三维仿真设计方法及系统
腻子 三维空间模型 三维仿真设计方法 结构功能模块 仿真分析
2
一种盾构机主轴承的故障诊断方法、装置及系统
盾构机主轴承 故障诊断模型 深度学习网络 故障诊断方法 一维卷积神经网络
3
一种用于子宫粘连图像的图像增强方法
图像增强方法 子宫 深度神经网络模型 参数 影像
4
一种边缘计算环境下的智能服务器管理方法及系统
服务器节点 边缘计算环境 智能服务器 地理坐标信息 资源预留
5
基于多头注意力的动态频率预测方法、系统、装置和介质
电力系统动态频率 频率预测方法 时序特征 多头注意力机制 虚拟惯量控制
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号