基于拓扑正则项的可解释性模型鲁棒训练方法

正文

推荐专利

申请号：CN202510168881

申请日期：2025-02-17

公开号：CN120125933A

公开日期：2025-06-10

类型：发明专利

摘要

本发明涉及基于拓扑正则项的可解释性模型鲁棒训练方法，属于人工智能安全领域。本发明首先对原始样本进行语义保持的扰动得到扰动样本；其次将原始样本与扰动样本输入目标模型，分别计算其梯度值生成对应解释图像；然后基于余弦距离与欧式距离计算样本扰动前后的梯度差异，利用持久同调方法提取样本扰动前后解释图像的拓扑特征以量化拓扑差异；最后将梯度差异与拓扑差异作为正则项，与交叉熵损失共同构成总损失，依据各差异在总损失中的占比动态调整正则项权重。本发明针对现有方法仅利用梯度差异特征训练模型影响其抗干扰性，以及固定的正则项权重难适应多类型扰动降低模型的泛化性问题，提出利用解释图像的拓扑特征有效提升模型解释的鲁棒性。

技术关键词

拓扑特征 Wasserstein距离度量样本图像更新模型参数因子持久性孔洞鲁棒性策略像素动态环形语义强度数据

基于拓扑正则项的可解释性模型鲁棒训练方法

站点导航

APP 下载