一种视觉问答系统的实现方法

正文

推荐专利

一种视觉问答系统的实现方法

申请号：CN202510049986

申请日期：2025-01-13

公开号：CN119988659A

公开日期：2025-05-13

类型：发明专利

摘要

本发明公开了一种视觉问答系统的实现方法，包括：获取知识库，基于原始训练数据集中包含的与每一张图片相关的问题文本对所述知识库进行检索，获得检索增强后的问题增强文本描述数据；以及将原始训练数据集中的图片数据集结合相应的文本提示通过多模态大模型进行数据增强，获得所述多模态大模型输出的增强数据；基于所述问题增强文本描述数据、增强数据和原始训练数据集进行模态融合，以对问答系统模型进行训练。本发明中，由于其使用了检索增强的方法来增强与图片数据相关的图片文本数据，相较于传统的问答模型，模型的可学习的内容更加全面更加准确，可以有效地提升模型的性能。

技术关键词

问答系统多模态数据图片更新模型参数知识点答案视觉特征 BERT模型文本编码器问答模型矩阵注意力传播算法图像分割语义格式

系统为您推荐了相关专利信息

基于高光谱成像的决明子真伪识别方法

真伪识别方法决明子联合稀疏编码光谱基线校正方法样本

硬件安全模块HSM固件升级方法、系统、电子设备及车辆

硬件安全模块固件升级方法引导加载程序固件升级系统数字签名校验

一种倾斜摄影三维模型压缩方法

倾斜摄影三维模型精度纹理顶点三维数据处理技术

增程式电动汽车发动机转速限制方法、装置及电子设备

增程式电动汽车发动机转速能量分布特征云端服务器路面纹理

多能源系统的仿真研究及最优化匹配分析方法及装置

匹配分析方法氢能源系统系统仿真模型光伏发电系统设备故障分析

一种视觉问答系统的实现方法

站点导航

APP 下载