摘要
本申请公开了一种基于大规模预训练ViT模型的抠图方法及装置,其中方法包括:获取待抠图图像;将待抠图图像输入到分割模型,以通过分割模型生成对应的三元图,其中,分割模型包括主干网络和旁路网络,主干网络采用ViT架构,并通过key‑value映射方式将大模型预训练的权重应用于主干网络,旁路网络用于辅助主干网络学习局部空间信息;将三元图和待抠图图像输入到抠图模型,以通过抠图模型生成对应的灰度图像,其中,抠图模型具有与分割模型相同的架构;将待抠图图像与灰度图像进行融合,以得到最终的抠图结果;由此,通过在ViT架构中引入了基于大模型预训练权重,并加入旁路网络辅助主干网络,从而有效提升了模型的语义识别能力和抠图精度。
技术关键词
模型预训练
图像编码器
编码模块
网络
多尺度特征提取
旁路
特征提取模块
解码器
处理器
计算机设备
可读存储介质
程序
存储器
语义
系统为您推荐了相关专利信息
自动扒渣方法
结点
卷积神经网络模型
直方图均衡化
Retinex算法
字段
大语言模型
集成开发环境
多模态融合方法
项目