基于多模态数据的智能问答方法、电子设备及存储介质

正文

推荐专利

申请号：CN202510116952

申请日期：2025-01-23

公开号：CN120069067A

公开日期：2025-05-30

类型：发明专利

摘要

本申请涉及人工智能技术领域，具体提供一种基于多模态数据的智能问答方法、电子设备及存储介质，旨在解决视觉语言大模型处理大规模或高维度图像数据存在图像信息过载、图像细节丢失和交互性不足的问题。为此目的，本申请的方法包括：获取多模态数据；将多模态数据输入智能问答模型；基于粗粒度特征提取模块获取图像数据的粗粒度特征；基于图像数据的粗粒度特征和文本指令获取图像数据中的关键区域的细粒度特征；基于粗粒度特征、文本指令和细粒度特征得到文本指令对应的问答结果。通过上述实施方式，能够根据用户需求动态调整特征提取的粒度，精确定位和分析图像中的关键区域，将粗粒度特征提取和细粒度特征提取结合，显著提升问答结果的精度。

技术关键词

智能问答方法多模态细粒度特征文本图像特征提取模块数据指令序列问答模型子模块视觉电子设备答案人工智能技术标识符解码器注意力机制

系统为您推荐了相关专利信息

一种文本识别方法、装置、电子设备以及存储介质

文本识别方法特征提取网络图像特征提取融合特征数据

一种人工智能瑶族服装试穿效果模拟设备

沉浸式交互模拟设备触觉反馈手套终端模块多模态数据采集

基于调度加速的高效BP成像方法

BP成像方法队列参数回波数据缓存单元

基于多模态融合与迭代优化的数据自动化标注方法

多模态标注方法组织层次数据数据标注系统扩充训练样本

一种基于元学习的视觉检测任务处理方法及系统

超参数训练器视觉人机接口单元样本

基于多模态数据的智能问答方法、电子设备及存储介质

站点导航

APP 下载