摘要
本发明提供一种基于流形对齐的模型训练方法及装置,属于机器学习领域,该方法包括:在训练过程中,应用视觉语言模型对胃部病理图像进行图像特征和文本特征提取,获得图像特征和文本特征;对上述特征进行特征增强,获得增强图像特征和增强文本特征;基于增强文本特征,对增强图像特征进行跨模态特征优化,获得跨模态优化图像特征;将跨模态优化图像特征和增强文本特征进行流形空间映射,获得映射图像特征和映射文本特征;基于主动空间聚焦机制,对映射图像特征和映射文本特征进行特征融合,得到图文融合特征,以此进行模型训练。应用本发明的方法,可对图像特征和文本特征进行跨模态融合,可改善模型训练效果,提高模型检测精度。
技术关键词
文本
模型训练方法
感知特征
融合特征
跨模态
图文
周期
视觉
注意力
图像特征提取
双向长短期记忆网络
纹理
语义
复杂度
动态
模型训练装置
特征提取单元
上下文特征
机制