摘要
本发明公开了一种视觉问答系统的实现方法,包括:获取知识库,基于原始训练数据集中包含的与每一张图片相关的问题文本对所述知识库进行检索,获得检索增强后的问题增强文本描述数据;以及将原始训练数据集中的图片数据集结合相应的文本提示通过多模态大模型进行数据增强,获得所述多模态大模型输出的增强数据;基于所述问题增强文本描述数据、增强数据和原始训练数据集进行模态融合,以对问答系统模型进行训练。本发明中,由于其使用了检索增强的方法来增强与图片数据相关的图片文本数据,相较于传统的问答模型,模型的可学习的内容更加全面更加准确,可以有效地提升模型的性能。
技术关键词
问答系统
多模态
数据
图片
更新模型参数
知识点
答案
视觉特征
BERT模型
文本编码器
问答模型
矩阵
注意力
传播算法
图像分割
语义
格式
系统为您推荐了相关专利信息
真伪识别方法
决明子
联合稀疏编码
光谱基线校正方法
样本
硬件安全模块
固件升级方法
引导加载程序
固件升级系统
数字签名校验
倾斜摄影三维模型
精度
纹理
顶点
三维数据处理技术
增程式电动汽车
发动机转速
能量分布特征
云端服务器
路面纹理
匹配分析方法
氢能源系统
系统仿真模型
光伏发电系统
设备故障分析