多模态模型训练方法、装置、设备及存储介质

AITNT
正文
推荐专利
多模态模型训练方法、装置、设备及存储介质
申请号:CN202411912993
申请日期:2024-12-20
公开号:CN119762925A
公开日期:2025-04-04
类型:发明专利
摘要
本公开提供了多模态模型训练方法、装置、设备及存储介质,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习、大模型等技术领域。具体实现方案为:利用预设多模态模型的视觉编码网络,对第一文档图像和第二文档图像进行特征提取,以得到融合特征数据,其中,第一文档图像和第二文档图像是基于带有目标掩膜区域的目标文档图像所得,第一文档图像的分辨率与第二文档图像的分辨率不同;利用预设多模态模型的模型推理网络,对融合特征数据进行模型推理,以预测得到目标掩膜区域所掩盖的文本内容;基于预测得到的目标掩膜区域所掩盖的文本内容,对预设多模态模型进行训练,以得到目标多模态模型。
技术关键词
掩膜 图像 多模态 融合特征 特征提取单元 推理网络 感知特征 数据 分辨率 模型训练方法 文本 对齐模块 关系 卷积模块 模型训练装置 处理器 人工智能技术 计算机程序产品
系统为您推荐了相关专利信息
1
一种基于强化学习的髋臼周围截骨规划方法及装置
髋臼 髋关节 深度Q网络学习 规划 医学
2
一种基于多模态数据融合的档案知识库构建与检索方法及系统
多模态数据融合 注意力机制 检索方法 文本 更新知识图谱
3
一种通用高位相机与无人机联动的方法及系统
坐标系 相机模型 无人机航线 生成无人机 矩阵
4
一种基于AI虚拟人的智能直播交互方法及系统
多模态用户交互 直播交互方法 多模态交互 生成用户 图谱
5
一种多模态可重构具身智能机器人
智能机器人 模块化关节 多模态 智能控制模块 末端执行器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号