基于千问大模型指导主干网络进行图像分割的方法

AITNT
正文
推荐专利
基于千问大模型指导主干网络进行图像分割的方法
申请号:CN202510795227
申请日期:2025-06-15
公开号:CN120318522B
公开日期:2025-09-26
类型:发明专利
摘要
本发明公开了基于千问大模型指导主干网络进行图像分割的方法,包括:将训练集中的文档图片输入到UNet主干分割网络中,得到特征图;将文档图片和人工设计的提示输入千问2多模态大模型中,获得其隐藏层的特征信息;将特征信息放入可变形代理注意力机制中进行融合,得到语义与视觉特征互相融合的更加完整的信息;将可学习的查询向量和融合信息放入解码器层中等步骤,本发明加快模型的收敛速度,使模型训练更加稳定。不仅可以减少计算开销,降低显存使用,同时还能加强代理量获取的灵活性,让模型更加自适应地学习到合理、有用的知识,得到更加灵活的注意力,有效地通过千问的指导,提高了主干分割网络的性能,对文档图片进行了较为清晰地分割。
技术关键词
视觉特征信息 融合特征 图像分割 注意力机制 语义特征 解码模块 网络 图片 采样方法 双线性插值 池化方法 解码器 元素 键值 多层结构 掩膜 训练集
系统为您推荐了相关专利信息
1
基于多模态数据融合的展厅三维建模智能优化系统
多模态数据融合 智能优化系统 展厅 数据采集模块 激光雷达点云数据
2
图像分割分类方法及装置
分类特征 多头注意力机制 融合特征 图像分割 神经网络模型
3
图像中线状结构识别分割的深度学习模型、方法、存储介质和装置
深度学习模型 图像 解码器 编码器模块 线状结构
4
一种亚像素机器视觉边缘检测钢板起吊弯曲弧度检测方法
机器视觉边缘检测 弧度检测方法 起吊钢板 实时图像 图像分割模型
5
基于混合傅里叶编码器的轨迹预测方法、系统、设备和存储介质
车道中心线 轨迹预测方法 编码特征 编码器 交叉注意力机制
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号