摘要
本申请公开了一种多模态大模型推理方法及设备,属于人工智能领域,用以解决无法对视觉令牌进行有效剪枝的问题,方法包括:对自注意力与跨模态注意力分别进行降序排序,得到自注意力累计和向量与跨模态注意力累计和向量,以构建综合重要性矩阵;以及根据输入图像的令牌选取数量阈值,构建掩膜矩阵;将综合重要性矩阵与掩膜矩阵进行逐元素乘积,得到跨模态选择令牌集合和自注意力选择令牌集合所对应的综合重要性分数;根据综合重要性分数最大化与预设目标函数,优化求解在目标函数为最大值时,满足约束条件下的跨模态选择令牌集合和自注意力选择令牌集合,以对多个视觉令牌进行剪枝。实现了对视觉令牌进行有效剪枝。
技术关键词
令牌
注意力
跨模态
掩膜矩阵
视觉
推理方法
多模态
文本
语义
代表
图像
索引
元素
大语言模型
处理器通信
存储器
数值
指令
系统为您推荐了相关专利信息
健康医疗服务
推荐系统
编码特征
免疫细胞
跨模态
六轴机器人
螺母输送机
工位机器人
上料输送机
下料输送机
图像生成器
可见光图像
融合特征
边界特征
图像块
工业产品缺陷检测
OpenCV计算机视觉
深度学习训练
彩色图像数据
检测工业产品