摘要
本公开实施例公开了一种基于视觉编码器组合的多模态图片理解方法及装置,涉及人工智能技术领域,该方法包括:获得多模态图片包括的图像和文本;将图像输入至视觉编码器组合中,获得每个视觉编码器输出的多个图像特征;基于每个视觉编码器输出的多个图像特征,得到至少一个视觉token;以及,使用文本分词器获取文本包括的至少一个文本token;将至少一个视觉token和至少一个文本token输入至视觉token融合器,得到第一视觉token;将第一视觉token和至少一个文本token合并后输入至大语言模型中,获得文本描述信息。本公开实施例采用视觉编码器组合提取足够全面的视觉特征,同时减少了大语言模型的计算量。
技术关键词
文本
图片
图像
融合器
多模态
注意力
人工智能技术
视觉特征
处理器
聚类
可读存储介质
模块
存储器
电子设备
计算机
线性
系统为您推荐了相关专利信息
石榴籽粒
智能化控制系统
石榴果皮
参数自适应控制
隔膜
机器人基座
机器人夹爪
坐标系
三维相机
计算方法