基于离散余弦变换的多模态图片理解方法及装置

AITNT
正文
推荐专利
基于离散余弦变换的多模态图片理解方法及装置
申请号:CN202511034882
申请日期:2025-07-25
公开号:CN120877067A
公开日期:2025-10-31
类型:发明专利
摘要
本公开实施例公开了一种基于离散余弦变换的多模态图片理解方法及装置,涉及人工智能技术领域,该方法包括:获得多模态图片包括的图像和文本;对图像进行离散余弦变换,得到频域特征向量,并将频域特征向量转换为第一视觉token;以及,使用文本分词器获取文本包括的文本token;将文本token和第一视觉token输入至Q‑former模块中,对第一视觉token的数量进行压缩,得到第二视觉token;将第二视觉token和文本token合并后输入至预设的大语言模型中,获得多模态图片的文本描述信息。本公开实施例提高了高分辨率图片的细粒度感知能力,压缩了视觉token的数量,节约了大语言模型的计算资源。
技术关键词
离散余弦变换系数 像素块 视觉 文本 前馈神经网络 多模态 通道 像素点 注意力 像素矩阵 高分辨率图片 图像 上采样 人工智能技术 模块
系统为您推荐了相关专利信息
1
基于可控扩散模型的婴幼儿脑影像去噪方法、系统、装置、介质及程序产品
去噪方法 一致性检测 副本 计算机程序代码 网络
2
一种基于智能家居平台的桌椅远程管理方法
桌椅 智能家居平台 轮廓 三维模型 计算机视觉算法
3
一种用于手术打结动作视频识别的改进的yolov8n模型训练方法及装置
模型训练方法 手术 动作视频识别方法 训练集 模型训练装置
4
一种提高高炉热风炉新旧格子砖通孔率的方法
高炉热风炉 计算机控制系统 激光扫描设备 热风炉格子砖 通孔
5
图像处理方法、装置及电子设备
图像处理模型 参数 文本 图像处理方法 噪声
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号