基于离散余弦变换的多模态图片理解方法及装置

正文

推荐专利

申请号：CN202511034882

申请日期：2025-07-25

公开号：CN120877067A

公开日期：2025-10-31

类型：发明专利

摘要

本公开实施例公开了一种基于离散余弦变换的多模态图片理解方法及装置，涉及人工智能技术领域，该方法包括：获得多模态图片包括的图像和文本；对图像进行离散余弦变换，得到频域特征向量，并将频域特征向量转换为第一视觉token；以及，使用文本分词器获取文本包括的文本token；将文本token和第一视觉token输入至Q‑former模块中，对第一视觉token的数量进行压缩，得到第二视觉token；将第二视觉token和文本token合并后输入至预设的大语言模型中，获得多模态图片的文本描述信息。本公开实施例提高了高分辨率图片的细粒度感知能力，压缩了视觉token的数量，节约了大语言模型的计算资源。

技术关键词

离散余弦变换系数像素块视觉文本前馈神经网络多模态通道像素点注意力像素矩阵高分辨率图片图像上采样人工智能技术模块

系统为您推荐了相关专利信息

基于可控扩散模型的婴幼儿脑影像去噪方法、系统、装置、介质及程序产品

去噪方法一致性检测副本计算机程序代码网络

一种基于智能家居平台的桌椅远程管理方法

桌椅智能家居平台轮廓三维模型计算机视觉算法

一种用于手术打结动作视频识别的改进的yolov8n模型训练方法及装置

模型训练方法手术动作视频识别方法训练集模型训练装置

一种提高高炉热风炉新旧格子砖通孔率的方法

高炉热风炉计算机控制系统激光扫描设备热风炉格子砖通孔

图像处理方法、装置及电子设备

图像处理模型参数文本图像处理方法噪声

基于离散余弦变换的多模态图片理解方法及装置

站点导航

APP 下载