摘要
本申请提供一种基于多模态大模型的数据处理方法及装置,涉及数据处理,包括:获取多模态数据,从多模态数据中提取图像数据和文本数据,利用ViT模型对图像数据进行特征提取以及残差矢量量化,获取与经过序列化编码后的第一文本数据相统一的第二图像数据,再将第二图像数据和第一文本数据进行拼接,利用大型语言模型进行自回归预测,获取下一个特征数据,然后,从下一个特征数据中提取第一图像特征数据,对第一图像特征数据进行视觉特征重构,再将视觉特征重构数据解码到像素空间,获取填充像素细节后的第二图像特征数据,在解决了多模态数据在图像数据和文本数据上表示不一致的问题的同时,确保了最终预测的第二图像特征数据的完整性。
技术关键词
图像特征数据
数据处理方法
视觉特征
多模态
文本
矢量量化
数据解码
像素
图像块特征
解码器
数据处理装置
重构模块
编码
解码模块
字典
系统为您推荐了相关专利信息
隔离模块
生物电信号传感器
电源模块
发射器
接收器
微流控制方法
器官芯片
水凝胶
流体动力学参数
动态算法
图像生成方法
图像生成模型
生成对抗网络
随机噪声
图像生成系统