基于跨模态标记融合的多模态图片理解方法及装置

正文

推荐专利

申请号：CN202511108054

申请日期：2025-08-08

公开号：CN120611154B

公开日期：2025-12-23

类型：发明专利

摘要

本公开实施例公开了一种基于跨模态标记融合的多模态图片理解方法及装置，涉及人工智能技术领域，该方法包括：获得多模态图片包括的图像和文本；将图像输入至图像编码器，得到至少一个图像特征，基于至少一个图像特征，确定第一视觉token；以及使用文本分词器获取文本包括的第一文本token；基于第一视觉token和第一文本token，得到第二视觉token；将第二视觉token和第一文本token合并后输入至预设的大语言模型，对多模态图片进行理解。本公开实施例使用文本token集的加权组合来表征视觉token，并采用交叉注意力权重融合多种模态标记的语义表达，有效提高了对多模态图片的理解。

技术关键词

文本视觉注意力跨模态图片图像编码器多模态矩阵标记人工智能技术处理器线性可读存储介质模块存储器标识电子设备分词语义

基于跨模态标记融合的多模态图片理解方法及装置

站点导航

APP 下载