多模态模型训练方法、装置、设备及存储介质

正文

推荐专利

申请号：CN202411912993

申请日期：2024-12-20

公开号：CN119762925A

公开日期：2025-04-04

类型：发明专利

摘要

本公开提供了多模态模型训练方法、装置、设备及存储介质，涉及人工智能技术领域，尤其涉及计算机视觉、深度学习、大模型等技术领域。具体实现方案为：利用预设多模态模型的视觉编码网络，对第一文档图像和第二文档图像进行特征提取，以得到融合特征数据，其中，第一文档图像和第二文档图像是基于带有目标掩膜区域的目标文档图像所得，第一文档图像的分辨率与第二文档图像的分辨率不同；利用预设多模态模型的模型推理网络，对融合特征数据进行模型推理，以预测得到目标掩膜区域所掩盖的文本内容；基于预测得到的目标掩膜区域所掩盖的文本内容，对预设多模态模型进行训练，以得到目标多模态模型。

技术关键词

掩膜图像多模态融合特征特征提取单元推理网络感知特征数据分辨率模型训练方法文本对齐模块关系卷积模块模型训练装置处理器人工智能技术计算机程序产品

系统为您推荐了相关专利信息

一种基于强化学习的髋臼周围截骨规划方法及装置

髋臼髋关节深度Q网络学习规划医学

一种基于多模态数据融合的档案知识库构建与检索方法及系统

多模态数据融合注意力机制检索方法文本更新知识图谱

一种通用高位相机与无人机联动的方法及系统

坐标系相机模型无人机航线生成无人机矩阵

一种基于AI虚拟人的智能直播交互方法及系统

多模态用户交互直播交互方法多模态交互生成用户图谱

一种多模态可重构具身智能机器人

智能机器人模块化关节多模态智能控制模块末端执行器

多模态模型训练方法、装置、设备及存储介质

站点导航

APP 下载