基于多模态预训练模型的图文处理方法、装置、电子设备和存储介质

AITNT
正文
推荐专利
基于多模态预训练模型的图文处理方法、装置、电子设备和存储介质
申请号:CN202510880202
申请日期:2025-06-27
公开号:CN120976706A
公开日期:2025-11-18
类型:发明专利
摘要
本公开提供一种基于多模态预训练模型的图文处理方法、装置、电子设备和存储介质,涉及深度学习技术领域。上述方法包括:获取待处理的图像数据和文本数据;将所述图像数据和所述文本数据,输入多模态的预训练模型中,得到从所述预训练模型输出的图文处理结果,所述预训练模型的编码器包括以下任一项:单模态编码器和多模态编码器,所述预训练模型还包括多模态解码器。本公开提供了一种新的VLP框架,将编码器和多模态的解码器进行融合,提高了图文处理的效率,增强了图文处理的效果。
技术关键词
预训练模型 多模态 文本编码器 图文 数据 检测损失 语义 注意力参数 图像解码器 深度学习技术 图像编码器 电子设备 处理器 实体 物体
系统为您推荐了相关专利信息
1
一种多仿生机器狗跨楼层立体巡检方法及系统
仿生机器狗 巡检路径 楼层立体 三维环境模型 动态路径规划算法
2
基于物理模型的重力卫星地下水蓄变量垂向信号分离方法
地下水 重力 加权最小二乘 反演框架 矩阵
3
计量偏差确定方法及装置
负荷 波形 电源 电压 偏差
4
基于STM32平台的多信道自适应通控器
STM32平台 数据转发模块 子模块 工作状态监测 状态检测模块
5
步兵战车类战斗全要素训练模拟系统及训练模拟方法
训练模拟系统 步兵战车 驾驶舱 控制台 图像显示系统
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号