摘要
本申请提供一种多模态理解大模型的推理方法、装置、设备及存储介质,涉及计算机技术领域。该方法包括:获取第一模态数据和第二模态数据;利用多模态编码器中的第一模态编码器对第一模态数据进行编码,获得第一tokens;利用多模态编码器中的第二模态编码器对第二模态数据进行编码,获得第二tokens;通过tokens选择器从第二tokens中选择第一tokens关注的目标第二tokens;通过连接器将第一tokens和目标第二tokens进行对齐;通过大语言模型对第一tokens和对齐后的目标第二tokens进行推理,获得推理结果。本申请实施例利用tokens选择器对第二tokens进行压缩,降低推理的tokens长度和对计算资源的需求,提高推理效率。
技术关键词
多模态
编码器
注意力
大语言模型
推理方法
计算机程序指令
数据
推理装置
处理器
对齐模块
计算机程序产品
矩阵
元素
编码模块
存储器
聚类
系统为您推荐了相关专利信息
多模态数据融合
图像分析方法
关键帧提取算法
图像分割网络
图像分析系统
命名实体识别模型
文本
关系抽取模型
分词
实体抽取方法
页面
企业信息处理方法
大语言模型
企业产品信息
文档对象模型
智能验证码
动态上下文
语义分析引擎
多模态
生成方法