一种基于推测解码加速多模态大语言模型推理的方法

正文

推荐专利

申请号：CN202510642845

申请日期：2025-05-19

公开号：CN120525058A

公开日期：2025-08-22

类型：发明专利

摘要

本发明公开了一种基于推测解码加速多模态大语言模型推理的方法，多模态大语言模型的输入由系统词元、视觉词元、指令词元和输出词元组成，包括以下步骤：S1、从使用LLaMA模型指令微调的ShareGPT数据集中抽取预定数量的样本，对Eagle小模型进行预训练，使Eagle小模型在纯文本环境下建立基本的语言生成能力；S2、取出LLaVA模型指令微调的ShareGPT数据集中抽取预定数量的样本，使用过渡的方式迁移Eagle小模型的能力；S3、在草稿模型经过两阶段的训练后，在改进的起草机制设计上，针对文本和视觉模态的特性差异实施差异化处理；该方法能够提高推测解码在多模态任务中的表现，提高目标模型每一次验证的接受长度，并实现对于文本词元和视觉词元在草稿模型中的分别适配。

技术关键词

大语言模型多模态神经网络架构模型预训练文本视觉解码两阶段样本数据指令机制定义图像

系统为您推荐了相关专利信息

一种面向深度学习网络的上下文压缩方法和深度学习网络

深度学习网络文本序列信息编码混合专家网络

基于部分权重共享和多损失融合的卷积神经网络眼底图像疾病分类方法

多标签神经网络架构融合方法融合卷积神经网络分类方法

一种页面生成与更新方法

富文本编辑器语义标签更新方法页面内容页面模板

视频生成方法、装置、设备及介质

视频生成方法关键帧编码器文本注意力

对话生成方法、装置、设备、存储介质及计算机程序产品

对话生成方法文本问答模型生成设备对话生成装置

一种基于推测解码加速多模态大语言模型推理的方法

站点导航

APP 下载