摘要
一种基于上消化道时序信息的多模态MLKNet识别方法,通过图像‑文本对齐方式为胃镜部位图像生成时序特征向量,利用多尺度分级融合策略将时序信息融合到单帧图像中,特征融合网络采用三向扫描Mamba和大卷积核模块,使时序信息扩展到全图像并增大感受野。数据集经预处理、添加时序描述后划分为训练集和验证集,预训练语义编码器,构建图像编码网络,进行图像‑文本特征对齐,计算包含多种损失的输出损失并反向传播更新参数。本发明增强了相似特征图像区分度,提高了对形变特征分类的鲁棒性。
技术关键词
识别方法
输出特征
时序特征
文本
融合图像特征
特征融合网络
胃镜图像
融合特征
多尺度特征
模块
图像类别
预训练语言模型
交叉注意力机制
解码器
图像编码器
双线性插值
多层感知器
融合策略
系统为您推荐了相关专利信息
识别方法
协同注意力
特征金字塔
数据
金字塔特征
深度学习模型
数据迁移方法
时序卷积神经网络
时序特征
样本
混合语音识别方法
音频分块
文本
解码模型
缓存技术