摘要
本申请提供了一种多模态模型的训练方法、视觉问答任务的处理方法及设备,属于人工智能技术领域,训练方法包括:获取图像训练数据和文本训练数据;基于图像训练数据和文本训练数据对混合专家连接器进行跨模态全局对齐训练,得到第一混合专家连接器,基于图像训练数据和文本训练数据对第一混合专家连接器进行跨模态局部对齐训练,得到包括第二混合专家连接器的多模态模型;多模态模型用于基于第二混合专家连接器进行图像模态信息与文本模态信息的全局对齐和局部对齐,得到视觉问答任务的答案。本申请能够结合对图像和问题进行粗细粒度的跨模态对齐,从而提升视觉问答任务的答案的准确性。
技术关键词
细粒度特征
文本
跨模态
数据
视觉
多模态
图像全局特征
答案
自然语言
样本
序列
可读存储介质
人工智能技术
处理器
存储器
计算机
系统为您推荐了相关专利信息
快速检测方法
对象
采集环境参数
信号处理
环境管理技术
智能数控机床
模拟退火算法
速度
采集数控机床
参数
深度学习模型
自动鉴定方法
浮游植物
图像增强算法
微型蠕动泵