一种基于双模态提示学习的接地视觉问答方法及系统

正文

推荐专利

申请号：CN202411963622

申请日期：2024-12-30

公开号：CN119903204A

公开日期：2025-04-29

类型：发明专利

摘要

本发明提出了一种基于双模态提示学习的接地视觉问答方法及系统，引入视觉提示和文本提示，将视觉和文本信息集成到模型的编码过程中，提高对复杂场景的理解和定位能力，采用多重迭代融合策略进行综合答案推理，确保高质量生成文本答案和接地答案。方法步骤为：将问题和相关图片输入至预训练模型CAT‑ViL中得到视觉知识提示和文本知识提示，同时提取图片特征，并对文本进行向量化处理；通过分层迭代融合的方式，用提示信息引导包括视觉和文本的多模态信息的推理；通过堆叠迭代注意力特征融合模块将推理得到的精细视觉和文本信息数据进行融合；将融合的数据与推理后的视觉和文本提示功能一起解码；专用分类头和目标检测头生成最终文本答案和接地答案。

技术关键词

视觉问答方法文本双模态专用分类答案子模块注意力图片问答系统嵌入特征融合策略检测头预训练模型图像嵌入特征提取模块解码对齐模块编码

系统为您推荐了相关专利信息

基于自适应优化的领域特化大模型微调与部署方法及系统

知识蒸馏技术模型压缩样本资源受限环境命名实体识别

训练数据去重方法、装置和设备

数据去重方法融合特征多模态音频特征样本

金融统计信息无障碍播放方法、装置、设备、介质及产品

信息无障碍大语言模型金融多模态自然语言

数据审核方法、装置、设备、介质和程序产品

数据审核方法对象风险文本关键字

一种天气预报服务文本数据集生成方法、系统及相关装置

天气预报服务文本大语言模型生成方法评估算法

一种基于双模态提示学习的接地视觉问答方法及系统

站点导航

APP 下载