摘要
本发明公开了一种基于变分信息瓶颈引导的概念瓶颈模型构建方法,该方法利用视觉语言模型生成与输入图像内容直接相关的基础概念池,利用大语言模型生成描述性补充概念池,覆盖目标类别的多样化属性特征;基于变分信息瓶颈原理,通过跨模态对齐的图像‑文本嵌入空间计算概念重要性得分,筛选高关联性概念;由基础概念分类器与补充概念分类器构成双分支概念瓶颈网络,通过分类融合器融合两者的预测结果;采用可解释性效率指标优化模型,平衡分类准确率与概念解释的效率。本发明利用变分信息瓶颈对CLIP编码过的图像文本嵌入进行深入对齐,并利用补充概念瓶颈进一步提升对分类的准确率。
技术关键词
概念
模型构建方法
瓶颈
文本编码器
图像编码器
基础
大语言模型
分类准确率
图像嵌入
融合器
线性分类器
变量
数据分布
核心
参数
视觉特征
系统为您推荐了相关专利信息
交互特征
场景类别
生成场景
图像分割模型
图像全局特征