摘要
本发明提供一种模型训练方法、模型推理方法、装置及电子设备,模型训练方法包括:利用单向主干模型的第一预测头模块对多模态输入信息的隐空间词元序列中隐空间词元分段进行下一个词元预测,得到第一词元预测结果;基于隐空间词元分段,利用单向主干模型的第二预测头模块在隐空间词元序列内进行固定位置词元预测和随机位置词元预测,得到第二词元预测结果;基于第一词元预测结果和第二词元预测结果,确定多模态输入信息对应的掩码隐空间词元序列,并将掩码隐空间词元序列确定为模型训练结果。本发明提高了每步词元预测效率,结合不同预测头进行不同方式词元预测还能够提升最终词元生成效果,大幅提高了单向主干模型的模型训练效率和模型训练结果的精度。
技术关键词
模型训练方法
序列
推理方法
多模态
模块
分段
非暂态计算机可读存储介质
模型训练装置
电子设备
推理装置
处理器
存储器
程序
精度
系统为您推荐了相关专利信息
故障检测装置
算法模块
红外检测器
故障检测模块
故障智能诊断
MCU芯片
耦合电感
信号发送电路
宠物训练装置
信号接收电路
智能家居设备
联动控制方法
场景
大语言模型
声学特征
调度优化方法
电量预测模型
风力发电数据
光伏发电数据
发电量
爆破监测系统
数据分析模块
三维激光扫描仪
双线性插值算法
监测方法