摘要
本申请涉及人工智能技术领域,具体提供一种基于多模态数据的智能问答方法、电子设备及存储介质,旨在解决视觉语言大模型处理大规模或高维度图像数据存在图像信息过载、图像细节丢失和交互性不足的问题。为此目的,本申请的方法包括:获取多模态数据;将多模态数据输入智能问答模型;基于粗粒度特征提取模块获取图像数据的粗粒度特征;基于图像数据的粗粒度特征和文本指令获取图像数据中的关键区域的细粒度特征;基于粗粒度特征、文本指令和细粒度特征得到文本指令对应的问答结果。通过上述实施方式,能够根据用户需求动态调整特征提取的粒度,精确定位和分析图像中的关键区域,将粗粒度特征提取和细粒度特征提取结合,显著提升问答结果的精度。
技术关键词
智能问答方法
多模态
细粒度特征
文本
图像
特征提取模块
数据
指令
序列
问答模型
子模块
视觉
电子设备
答案
人工智能技术
标识符
解码器
注意力机制
系统为您推荐了相关专利信息
文本识别方法
特征提取网络
图像特征提取
融合特征
数据
沉浸式交互
模拟设备
触觉反馈手套
终端模块
多模态数据采集
多模态
标注方法
组织层次数据
数据标注系统
扩充训练样本