多模态模型的训练方法、视觉问答任务的处理方法及设备

AITNT
正文
推荐专利
多模态模型的训练方法、视觉问答任务的处理方法及设备
申请号:CN202510235192
申请日期:2025-02-28
公开号:CN120164059A
公开日期:2025-06-17
类型:发明专利
摘要
本申请提供了一种多模态模型的训练方法、视觉问答任务的处理方法及设备,属于人工智能技术领域,训练方法包括:获取图像训练数据和文本训练数据;基于图像训练数据和文本训练数据对混合专家连接器进行跨模态全局对齐训练,得到第一混合专家连接器,基于图像训练数据和文本训练数据对第一混合专家连接器进行跨模态局部对齐训练,得到包括第二混合专家连接器的多模态模型;多模态模型用于基于第二混合专家连接器进行图像模态信息与文本模态信息的全局对齐和局部对齐,得到视觉问答任务的答案。本申请能够结合对图像和问题进行粗细粒度的跨模态对齐,从而提升视觉问答任务的答案的准确性。
技术关键词
细粒度特征 文本 跨模态 数据 视觉 多模态 图像全局特征 答案 自然语言 样本 序列 可读存储介质 人工智能技术 处理器 存储器 计算机
系统为您推荐了相关专利信息
1
基于IPC的软硬件联调方法、电子设备和介质
待测芯片 软件测试用例集 门铃 联调方法 进程
2
一种房车自动耦合方法、装置、电子设备及存储介质
房车 自动耦合方法 移车器 坐标系 数据
3
一种放射性物质泄漏快速检测方法及系统
快速检测方法 对象 采集环境参数 信号处理 环境管理技术
4
基于智能数控机床加工工艺参数的优化方法及系统
智能数控机床 模拟退火算法 速度 采集数控机床 参数
5
基于人工智能的水生态监测岸边站自动鉴定方法及系统
深度学习模型 自动鉴定方法 浮游植物 图像增强算法 微型蠕动泵
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号