基于千问大模型指导主干网络进行图像分割的方法

正文

推荐专利

申请号：CN202510795227

申请日期：2025-06-15

公开号：CN120318522B

公开日期：2025-09-26

类型：发明专利

摘要

本发明公开了基于千问大模型指导主干网络进行图像分割的方法，包括：将训练集中的文档图片输入到UNet主干分割网络中，得到特征图；将文档图片和人工设计的提示输入千问2多模态大模型中，获得其隐藏层的特征信息；将特征信息放入可变形代理注意力机制中进行融合，得到语义与视觉特征互相融合的更加完整的信息；将可学习的查询向量和融合信息放入解码器层中等步骤，本发明加快模型的收敛速度，使模型训练更加稳定。不仅可以减少计算开销，降低显存使用，同时还能加强代理量获取的灵活性，让模型更加自适应地学习到合理、有用的知识，得到更加灵活的注意力，有效地通过千问的指导，提高了主干分割网络的性能，对文档图片进行了较为清晰地分割。

技术关键词

视觉特征信息融合特征图像分割注意力机制语义特征解码模块网络图片采样方法双线性插值池化方法解码器元素键值多层结构掩膜训练集

系统为您推荐了相关专利信息

基于多模态数据融合的展厅三维建模智能优化系统

多模态数据融合智能优化系统展厅数据采集模块激光雷达点云数据

图像分割分类方法及装置

分类特征多头注意力机制融合特征图像分割神经网络模型

图像中线状结构识别分割的深度学习模型、方法、存储介质和装置

深度学习模型图像解码器编码器模块线状结构

一种亚像素机器视觉边缘检测钢板起吊弯曲弧度检测方法

机器视觉边缘检测弧度检测方法起吊钢板实时图像图像分割模型

基于混合傅里叶编码器的轨迹预测方法、系统、设备和存储介质

车道中心线轨迹预测方法编码特征编码器交叉注意力机制

基于千问大模型指导主干网络进行图像分割的方法

站点导航

APP 下载