一种可缓解幻觉的视觉-文本对齐系统及方法

AITNT
正文
推荐专利
一种可缓解幻觉的视觉-文本对齐系统及方法
申请号:CN202510550700
申请日期:2025-04-29
公开号:CN120472366A
公开日期:2025-08-12
类型:发明专利
摘要
本发明提供一种可缓解幻觉的视觉‑文本对齐系统及方法,本发明通过语义监督模块生成文本特征;并将文本特征作为视觉特征对齐的目标,通过对齐损失模块利用对比学习策略在中间特征空间中对齐视觉和文本特征;通过冻结的大型语言模型对对齐损失模块处理的多模态特征进行上下文推理,并自回归的生成推理文本;通过语义注入模块利用长时记忆集成机制存储时空特征,并通过查询增强机制生成查询嵌入;本发明通过在中间特征空间中显式对齐视频和文本表示来缓解幻觉问题,从而提升模型的泛化能力;通过引入语义监督和中间特征对齐机制,从而减少了模型输出中的幻觉现象,通过相似性的对齐损失,有效地增强中间特征空间中视觉与文本模态之间的语义一致性。
技术关键词
对齐系统 视觉特征 变换器 语义 文本编码器 交叉注意力机制 模态特征 模块 记忆 视频编码器 对齐方法 表达式
系统为您推荐了相关专利信息
1
一种迭代式监督微调数据生成方法及系统
数据生成方法 预训练语言模型 优化训练数据 样本 数据生成系统
2
方案推荐方法、装置、电子设备和计算机程序产品
查询关键词 计算机程序产品 推荐方法 问答模型 大语言模型
3
一种山区桥梁识别方法、装置、设备及介质
山区桥梁 语义分割网络 采样点 识别方法 终点
4
利用AI的会议纪要处理方法及其系统
会议纪要 语义角色 文本 融合特征 噪声抑制算法
5
用于用户推荐的模型训练方法、装置、设备和介质
模型训练方法 大语言模型 关系 多模态融合技术 数据
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号