摘要
本发明公开了一种基于推测解码加速多模态大语言模型推理的方法,多模态大语言模型的输入由系统词元、视觉词元、指令词元和输出词元组成,包括以下步骤:S1、从使用LLaMA模型指令微调的ShareGPT数据集中抽取预定数量的样本,对Eagle小模型进行预训练,使Eagle小模型在纯文本环境下建立基本的语言生成能力;S2、取出LLaVA模型指令微调的ShareGPT数据集中抽取预定数量的样本,使用过渡的方式迁移Eagle小模型的能力;S3、在草稿模型经过两阶段的训练后,在改进的起草机制设计上,针对文本和视觉模态的特性差异实施差异化处理;该方法能够提高推测解码在多模态任务中的表现,提高目标模型每一次验证的接受长度,并实现对于文本词元和视觉词元在草稿模型中的分别适配。
技术关键词
大语言模型
多模态
神经网络架构
模型预训练
文本
视觉
解码
两阶段
样本
数据
指令
机制
定义
图像
系统为您推荐了相关专利信息
多标签
神经网络架构
融合方法
融合卷积神经网络
分类方法
富文本编辑器
语义标签
更新方法
页面内容
页面模板
对话生成方法
文本
问答模型
生成设备
对话生成装置