摘要
本发明公开了一种基于多样性的轻量化视觉搜索引擎,旨在以无损的方式有效压缩CLIP模型,从而实现轻量化的视觉搜索。本搜索引擎专注于CLIP模型视觉编码器中的参数密集的多层感知机模块,使用格拉姆‑施密特正交算法修剪多层感知机隐藏层中的冗余神经元,同时保留权重的多样性以提高剪枝后CLIP模型的可恢复性。然后,应用知识蒸馏来指导剪枝模型性能的恢复。在几个流行的CLIP模型上的实验结果表明,本搜索引擎在几乎不影响性能的情况下,显著减少了给定CLIP模型的参数和浮点运算量。这表明本搜索引擎可以在剪枝后,有效地保留原始CLIP模型卓越的图像和文本语义理解能力,从而在知识蒸馏后实现有效的性能恢复,进而实现了轻量化的视觉搜索。
技术关键词
多层感知机
令牌
视觉
补丁
蒸馏
修剪策略
剪枝模型
图像
文本编码器
参数
矩阵
教师
小规模
数据
算法
模块
语义
冗余
比率
系统为您推荐了相关专利信息
图像分类模型
样本
计算机可执行指令
令牌
模型训练方法
关键点特征
多模态特征
图像
问诊系统
医疗知识图谱
数字孪生建模方法
设备状态数据
数字孪生模型
注意力
跨模态