摘要
本公开实施例公开了一种基于跨模态标记融合的多模态图片理解方法及装置,涉及人工智能技术领域,该方法包括:获得多模态图片包括的图像和文本;将图像输入至图像编码器,得到至少一个图像特征,基于至少一个图像特征,确定第一视觉token;以及使用文本分词器获取文本包括的第一文本token;基于第一视觉token和第一文本token,得到第二视觉token;将第二视觉token和第一文本token合并后输入至预设的大语言模型,对多模态图片进行理解。本公开实施例使用文本token集的加权组合来表征视觉token,并采用交叉注意力权重融合多种模态标记的语义表达,有效提高了对多模态图片的理解。
技术关键词
文本
视觉
注意力
跨模态
图片
图像编码器
多模态
矩阵
标记
人工智能技术
处理器
线性
可读存储介质
模块
存储器
标识
电子设备
分词
语义