一种基于双模态提示学习的接地视觉问答方法及系统

AITNT
正文
推荐专利
一种基于双模态提示学习的接地视觉问答方法及系统
申请号:CN202411963622
申请日期:2024-12-30
公开号:CN119903204A
公开日期:2025-04-29
类型:发明专利
摘要
本发明提出了一种基于双模态提示学习的接地视觉问答方法及系统,引入视觉提示和文本提示,将视觉和文本信息集成到模型的编码过程中,提高对复杂场景的理解和定位能力,采用多重迭代融合策略进行综合答案推理,确保高质量生成文本答案和接地答案。方法步骤为:将问题和相关图片输入至预训练模型CAT‑ViL中得到视觉知识提示和文本知识提示,同时提取图片特征,并对文本进行向量化处理;通过分层迭代融合的方式,用提示信息引导包括视觉和文本的多模态信息的推理;通过堆叠迭代注意力特征融合模块将推理得到的精细视觉和文本信息数据进行融合;将融合的数据与推理后的视觉和文本提示功能一起解码;专用分类头和目标检测头生成最终文本答案和接地答案。
技术关键词
视觉问答方法 文本 双模态 专用分类 答案 子模块 注意力 图片 问答系统 嵌入特征 融合策略 检测头 预训练模型 图像嵌入 特征提取模块 解码 对齐模块 编码
系统为您推荐了相关专利信息
1
基于自适应优化的领域特化大模型微调与部署方法及系统
知识蒸馏技术 模型压缩 样本 资源受限环境 命名实体识别
2
训练数据去重方法、装置和设备
数据去重方法 融合特征 多模态 音频特征 样本
3
金融统计信息无障碍播放方法、装置、设备、介质及产品
信息无障碍 大语言模型 金融 多模态 自然语言
4
数据审核方法、装置、设备、介质和程序产品
数据审核方法 对象 风险 文本 关键字
5
一种天气预报服务文本数据集生成方法、系统及相关装置
天气预报服务 文本 大语言模型 生成方法 评估算法
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号