基于大规模预训练ViT模型的抠图方法及装置

正文

推荐专利

申请号：CN202411740826

申请日期：2024-11-29

公开号：CN119887823A

公开日期：2025-04-25

类型：发明专利

摘要

本申请公开了一种基于大规模预训练ViT模型的抠图方法及装置，其中方法包括：获取待抠图图像；将待抠图图像输入到分割模型，以通过分割模型生成对应的三元图，其中，分割模型包括主干网络和旁路网络，主干网络采用ViT架构，并通过key‑value映射方式将大模型预训练的权重应用于主干网络，旁路网络用于辅助主干网络学习局部空间信息；将三元图和待抠图图像输入到抠图模型，以通过抠图模型生成对应的灰度图像，其中，抠图模型具有与分割模型相同的架构；将待抠图图像与灰度图像进行融合，以得到最终的抠图结果；由此，通过在ViT架构中引入了基于大模型预训练权重，并加入旁路网络辅助主干网络，从而有效提升了模型的语义识别能力和抠图精度。

技术关键词

模型预训练图像编码器编码模块网络多尺度特征提取旁路特征提取模块解码器处理器计算机设备可读存储介质程序存储器语义

系统为您推荐了相关专利信息

基于多特征提取与融合的电力变压器温度预测方法及系统

温度预测方法电力变压器变量时序特征序列

一种基于知识图谱检索的智能导游人机对话方法及系统

人机对话方法智能导游图谱关系抽取模型实体

炼钢脱硫站铁水预处理自动扒渣方法及系统

自动扒渣方法结点卷积神经网络模型直方图均衡化 Retinex算法

用于物流大车队的云诊断平台、方法及设备

车联网平台诊断方法物流指令车辆诊断数据

在线编写代码智能动态提示方法及系统

字段大语言模型集成开发环境多模态融合方法项目

基于大规模预训练ViT模型的抠图方法及装置

站点导航

APP 下载