摘要
本发明公开了一种基于预训练的开放世界语义分割自动概念补全方法。包括:计算教师模型和学生模型的图像编码特征,通过图像特征蒸馏,将教师模型的知识传递到学生模型;使用预设视觉语言预训练模型,利用大规模图像‑文本数据生成的图像编码特征与教师模型生成的图像编码特征对比相似度,生成子标题,进行自动概念补全,得到补全后的标题;利用补全后标题的编码特征、子标题的编码特征与学生模型生成的图像编码特征对比损失来促进学生模型实现跨模态语义信息对齐;利用训练完成的学生模型对图像进行有效分割和识别。本发明通过图像特征蒸馏,确保图像特征和文本特征在同一语义空间中有效对齐。使用自动概念补全,确保文本标签的一致性和准确性。
技术关键词
补全方法
预训练模型
编码特征
语义
学生
概念
教师
跨模态
视觉
文本编码器
图像编码器
蒸馏
图像特征编码
图像分割
令牌
多层感知器
标签
系统为您推荐了相关专利信息
电子控制模块
功能测试用例
功能自动化测试
测试方法
数据