摘要
本发明提供一种可缓解幻觉的视觉‑文本对齐系统及方法,本发明通过语义监督模块生成文本特征;并将文本特征作为视觉特征对齐的目标,通过对齐损失模块利用对比学习策略在中间特征空间中对齐视觉和文本特征;通过冻结的大型语言模型对对齐损失模块处理的多模态特征进行上下文推理,并自回归的生成推理文本;通过语义注入模块利用长时记忆集成机制存储时空特征,并通过查询增强机制生成查询嵌入;本发明通过在中间特征空间中显式对齐视频和文本表示来缓解幻觉问题,从而提升模型的泛化能力;通过引入语义监督和中间特征对齐机制,从而减少了模型输出中的幻觉现象,通过相似性的对齐损失,有效地增强中间特征空间中视觉与文本模态之间的语义一致性。
技术关键词
对齐系统
视觉特征
变换器
语义
文本编码器
交叉注意力机制
模态特征
模块
记忆
视频编码器
对齐方法
表达式
系统为您推荐了相关专利信息
数据生成方法
预训练语言模型
优化训练数据
样本
数据生成系统
查询关键词
计算机程序产品
推荐方法
问答模型
大语言模型
模型训练方法
大语言模型
关系
多模态融合技术
数据