摘要
公开了一种基于动态损失去偏的视觉问答模型训练方法和系统,包括根据训练数据的答案频率和样本偏差检测结果动态调整损失函数的边距参数,其中,答案频率通过统计给定问题类型下每个答案的出现次数,生成与答案频率成反比的动态边距,样本偏差检测通过引入独立偏差检测分支,基于问题文本预测偏差置信度,生成与偏差程度呈正比的动态边距;将基于答案频率的动态边距与基于偏差检测的动态边距加权融合,形成最终动态边距;使用融合后的动态边距损失函数优化视觉问答模型,并结合交叉熵损失和偏差检测分支的损失进行联合训练。本申请能够增强模型对长尾分布答案的预测能力,提高低频答案的识别准确性,改善模型在视觉问答任务上的整体泛化性能。
技术关键词
视觉问答模型
答案
动态
偏差
损失函数优化
分支
频率
Softmax函数
文本
神经网络模型
训练系统
参数
度函数
可读存储介质
计算机
数据
标签
样本
索引