一种可缓解幻觉的视觉-文本对齐系统及方法

AITNT
正文
推荐专利
一种可缓解幻觉的视觉-文本对齐系统及方法
申请号:CN202510550700
申请日期:2025-04-29
公开号:CN120472366A
公开日期:2025-08-12
类型:发明专利
摘要
本发明提供一种可缓解幻觉的视觉‑文本对齐系统及方法,本发明通过语义监督模块生成文本特征;并将文本特征作为视觉特征对齐的目标,通过对齐损失模块利用对比学习策略在中间特征空间中对齐视觉和文本特征;通过冻结的大型语言模型对对齐损失模块处理的多模态特征进行上下文推理,并自回归的生成推理文本;通过语义注入模块利用长时记忆集成机制存储时空特征,并通过查询增强机制生成查询嵌入;本发明通过在中间特征空间中显式对齐视频和文本表示来缓解幻觉问题,从而提升模型的泛化能力;通过引入语义监督和中间特征对齐机制,从而减少了模型输出中的幻觉现象,通过相似性的对齐损失,有效地增强中间特征空间中视觉与文本模态之间的语义一致性。
技术关键词
对齐系统 视觉特征 变换器 语义 文本编码器 交叉注意力机制 模态特征 模块 记忆 视频编码器 对齐方法 表达式
系统为您推荐了相关专利信息
1
一种基于图像识别的手术器械异常状态识别方法
异常状态 识别方法 坐标系 高风险 包络
2
一种用于增强遥感变化检测的样本生成方法
样本生成方法 建筑物 遥感影像变化检测 计算机程序指令 对象分类器
3
基于人工智能的图纸自动修改生成方法及系统
多模态深度学习 图纸 树形结构 生成方法 线条
4
基于通话内容的客户标签确定方法、装置及存储介质
编码向量 语音 文本识别 语义 序列
5
基于人型康养机器人的跨场景的动态权限控制方法及介质
多模态身份认证 身份认证信息 声纹特征 虹膜特征 场景
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号