摘要
本发明公开了基于千问大模型指导主干网络进行图像分割的方法,包括:将训练集中的文档图片输入到UNet主干分割网络中,得到特征图;将文档图片和人工设计的提示输入千问2多模态大模型中,获得其隐藏层的特征信息;将特征信息放入可变形代理注意力机制中进行融合,得到语义与视觉特征互相融合的更加完整的信息;将可学习的查询向量和融合信息放入解码器层中等步骤,本发明加快模型的收敛速度,使模型训练更加稳定。不仅可以减少计算开销,降低显存使用,同时还能加强代理量获取的灵活性,让模型更加自适应地学习到合理、有用的知识,得到更加灵活的注意力,有效地通过千问的指导,提高了主干分割网络的性能,对文档图片进行了较为清晰地分割。
技术关键词
视觉特征信息
融合特征
图像分割
注意力机制
语义特征
解码模块
网络
图片
采样方法
双线性插值
池化方法
解码器
元素
键值
多层结构
掩膜
训练集
系统为您推荐了相关专利信息
多模态数据融合
智能优化系统
展厅
数据采集模块
激光雷达点云数据
分类特征
多头注意力机制
融合特征
图像分割
神经网络模型
机器视觉边缘检测
弧度检测方法
起吊钢板
实时图像
图像分割模型
车道中心线
轨迹预测方法
编码特征
编码器
交叉注意力机制