摘要
本公开提供一种基于多模态预训练模型的图文处理方法、装置、电子设备和存储介质,涉及深度学习技术领域。上述方法包括:获取待处理的图像数据和文本数据;将所述图像数据和所述文本数据,输入多模态的预训练模型中,得到从所述预训练模型输出的图文处理结果,所述预训练模型的编码器包括以下任一项:单模态编码器和多模态编码器,所述预训练模型还包括多模态解码器。本公开提供了一种新的VLP框架,将编码器和多模态的解码器进行融合,提高了图文处理的效率,增强了图文处理的效果。
技术关键词
预训练模型
多模态
文本编码器
图文
数据
检测损失
语义
注意力参数
图像解码器
深度学习技术
图像编码器
电子设备
处理器
实体
物体
系统为您推荐了相关专利信息
仿生机器狗
巡检路径
楼层立体
三维环境模型
动态路径规划算法
STM32平台
数据转发模块
子模块
工作状态监测
状态检测模块
训练模拟系统
步兵战车
驾驶舱
控制台
图像显示系统