基于多模态预训练模型的图文处理方法、装置、电子设备和存储介质

正文

推荐专利

申请号：CN202510880202

申请日期：2025-06-27

公开号：CN120976706A

公开日期：2025-11-18

类型：发明专利

摘要

本公开提供一种基于多模态预训练模型的图文处理方法、装置、电子设备和存储介质，涉及深度学习技术领域。上述方法包括：获取待处理的图像数据和文本数据；将所述图像数据和所述文本数据，输入多模态的预训练模型中，得到从所述预训练模型输出的图文处理结果，所述预训练模型的编码器包括以下任一项：单模态编码器和多模态编码器，所述预训练模型还包括多模态解码器。本公开提供了一种新的VLP框架，将编码器和多模态的解码器进行融合，提高了图文处理的效率，增强了图文处理的效果。

技术关键词

预训练模型多模态文本编码器图文数据检测损失语义注意力参数图像解码器深度学习技术图像编码器电子设备处理器实体物体

系统为您推荐了相关专利信息

一种多仿生机器狗跨楼层立体巡检方法及系统

仿生机器狗巡检路径楼层立体三维环境模型动态路径规划算法

基于物理模型的重力卫星地下水蓄变量垂向信号分离方法

地下水重力加权最小二乘反演框架矩阵

计量偏差确定方法及装置

负荷波形电源电压偏差

基于STM32平台的多信道自适应通控器

STM32平台数据转发模块子模块工作状态监测状态检测模块

步兵战车类战斗全要素训练模拟系统及训练模拟方法

训练模拟系统步兵战车驾驶舱控制台图像显示系统

基于多模态预训练模型的图文处理方法、装置、电子设备和存储介质

站点导航

APP 下载