基于视觉编码器组合的多模态图片理解方法及装置

正文

推荐专利

申请号：CN202511074778

申请日期：2025-08-01

公开号：CN120563872A

公开日期：2025-08-29

类型：发明专利

摘要

本公开实施例公开了一种基于视觉编码器组合的多模态图片理解方法及装置，涉及人工智能技术领域，该方法包括：获得多模态图片包括的图像和文本；将图像输入至视觉编码器组合中，获得每个视觉编码器输出的多个图像特征；基于每个视觉编码器输出的多个图像特征，得到至少一个视觉token；以及，使用文本分词器获取文本包括的至少一个文本token；将至少一个视觉token和至少一个文本token输入至视觉token融合器，得到第一视觉token；将第一视觉token和至少一个文本token合并后输入至大语言模型中，获得文本描述信息。本公开实施例采用视觉编码器组合提取足够全面的视觉特征，同时减少了大语言模型的计算量。

技术关键词

文本图片图像融合器多模态注意力人工智能技术视觉特征处理器聚类可读存储介质模块存储器电子设备计算机线性

系统为您推荐了相关专利信息

一种石榴果皮与籽粒分离的智能化控制系统

石榴籽粒智能化控制系统石榴果皮参数自适应控制隔膜

从二维图像中获取缺陷中心坐标的计算方法及其应用

机器人基座机器人夹爪坐标系三维相机计算方法

新闻可信度评估方法、新闻可信度评估装置、存储介质及设备

溯源信息可信度评估方法对象图谱元素

基于多模态半监督语义分割的焊接熔池视觉监测方法

语义分割网络熔池视觉监测方法多模态标记

一种学生课堂行为分析方法、装置、电子设备及存储介质

转换编码器样本图像块预测类别视觉

基于视觉编码器组合的多模态图片理解方法及装置

站点导航

APP 下载