摘要
本公开实施例公开了一种基于离散余弦变换的多模态图片理解方法及装置,涉及人工智能技术领域,该方法包括:获得多模态图片包括的图像和文本;对图像进行离散余弦变换,得到频域特征向量,并将频域特征向量转换为第一视觉token;以及,使用文本分词器获取文本包括的文本token;将文本token和第一视觉token输入至Q‑former模块中,对第一视觉token的数量进行压缩,得到第二视觉token;将第二视觉token和文本token合并后输入至预设的大语言模型中,获得多模态图片的文本描述信息。本公开实施例提高了高分辨率图片的细粒度感知能力,压缩了视觉token的数量,节约了大语言模型的计算资源。
技术关键词
离散余弦变换系数
像素块
视觉
文本
前馈神经网络
多模态
通道
像素点
注意力
像素矩阵
高分辨率图片
图像
上采样
人工智能技术
模块
系统为您推荐了相关专利信息
桌椅
智能家居平台
轮廓
三维模型
计算机视觉算法
模型训练方法
手术
动作视频识别方法
训练集
模型训练装置
高炉热风炉
计算机控制系统
激光扫描设备
热风炉格子砖
通孔