多模态模型的训练方法、视觉问答任务的处理方法及设备

正文

推荐专利

申请号：CN202510235192

申请日期：2025-02-28

公开号：CN120164059A

公开日期：2025-06-17

类型：发明专利

摘要

本申请提供了一种多模态模型的训练方法、视觉问答任务的处理方法及设备，属于人工智能技术领域，训练方法包括：获取图像训练数据和文本训练数据；基于图像训练数据和文本训练数据对混合专家连接器进行跨模态全局对齐训练，得到第一混合专家连接器，基于图像训练数据和文本训练数据对第一混合专家连接器进行跨模态局部对齐训练，得到包括第二混合专家连接器的多模态模型；多模态模型用于基于第二混合专家连接器进行图像模态信息与文本模态信息的全局对齐和局部对齐，得到视觉问答任务的答案。本申请能够结合对图像和问题进行粗细粒度的跨模态对齐，从而提升视觉问答任务的答案的准确性。

技术关键词

细粒度特征文本跨模态数据视觉多模态图像全局特征答案自然语言样本序列可读存储介质人工智能技术处理器存储器计算机

系统为您推荐了相关专利信息

基于IPC的软硬件联调方法、电子设备和介质

待测芯片软件测试用例集门铃联调方法进程

一种房车自动耦合方法、装置、电子设备及存储介质

房车自动耦合方法移车器坐标系数据

一种放射性物质泄漏快速检测方法及系统

快速检测方法对象采集环境参数信号处理环境管理技术

基于智能数控机床加工工艺参数的优化方法及系统

智能数控机床模拟退火算法速度采集数控机床参数

基于人工智能的水生态监测岸边站自动鉴定方法及系统

深度学习模型自动鉴定方法浮游植物图像增强算法微型蠕动泵

多模态模型的训练方法、视觉问答任务的处理方法及设备

站点导航

APP 下载