摘要
本发明公开了一种基于混合专家与低秩适配的统一多模态对齐方法及系统,属于人工智能与多模态学习领域。在本发明中,首先以CLIP模型作为基础模型,结合模态感知混合专家策略和低秩自适应策略,构建统一模态编码器;所述统一模态编码器包含每个锚模态对应的锚模态标记器、每个扩展模态对应的扩展模态标记器和多个堆叠的多模态混合专家模块;然后基于通用模态对齐测量以及知识蒸馏和跨模态优化策略,通过分批次采样多模态数据样本,对所述统一模态编码器进行微调训练。本发明通过单一编码器与单次训练,实现任意数量的锚模态与扩展模态的对齐,无需单独为每个模态训练专用模型,可提升跨领域与下游任务的可迁移性,适用于多模态理解、生成和推理等任务。
技术关键词
对齐方法
多模态
标记器
前馈神经网络
策略
计算机电子设备
视频
输出特征
数据输入模块
文本
训练专用
矩阵
对齐系统
图像编码器
蒸馏
存储计算机程序