摘要
本申请公开了一种基于大规模预训练ViT模型的抠图方法及装置,其中方法包括:获取待抠图图像;将待抠图图像输入到分割模型,以通过分割模型生成对应的三元图,其中,分割模型包括主干网络和旁路网络,主干网络采用ViT架构,并通过key‑value映射方式将大模型预训练的权重应用于主干网络,旁路网络用于辅助主干网络学习局部空间信息;将三元图和待抠图图像输入到抠图模型,以通过抠图模型生成对应的灰度图像,其中,抠图模型具有与分割模型相同的架构;将待抠图图像与灰度图像进行融合,以得到最终的抠图结果;由此,通过在ViT架构中引入了基于大模型预训练权重,并加入旁路网络辅助主干网络,从而有效提升了模型的语义识别能力和抠图精度。
技术关键词
模型预训练
图像编码器
编码模块
网络
多尺度特征提取
旁路
特征提取模块
解码器
处理器
计算机设备
可读存储介质
程序
存储器
语义
系统为您推荐了相关专利信息
网络安全防御方法
网络安全防御系统
动态
纳什均衡策略
多模态特征融合
检测头
三维特征提取
特征提取网络
区域卷积神经网络
热力图
电力系统网络安全
仿真模型
网络安全风险评估
风险预测模型
风险评估方法
温度异常检测方法
绝缘子串
电力设备绝缘子
实例分割模型
孤立森林算法
异常检测方法
视觉特征
多模态
多智能体协同
预训练模型