视觉问答方法、装置、计算机设备及计算机可读存储介质

正文

推荐专利

申请号：CN202411583399

申请日期：2024-11-07

公开号：CN119513346A

公开日期：2025-02-25

类型：发明专利

摘要

本申请公开了一种视觉问答方法、装置、计算机设备及计算机可读存储介质，可以利用问题引导图像实现跨模态交互，使得生成的图像特征融入问题信息，提高模态内和模态间的交互能力。所述方法包括：基于视觉问答模型，确定样本图像的自适应注意力特征图和样本问题的问题特征表示；对自适应注意力特征图和问题特征表示进行跨模态特征融合，确定样本预测答案；根据样本预测答案和样本实际答案之间的损失对视觉问答模型的模型参数进行优化，以及重新获取训练样本对视觉问答模型进行优化，直至视觉问答模型达到停止模型训练的标准，得到目标模型；响应于视觉问答指令，将待预测图像和待预测问题输入至目标模型进行预测，得到待预测问题对应的预测答案。

技术关键词

视觉问答模型样本答案注意力机制跨模态视觉问答方法矩阵非线性测试视觉图像编码器计算机设备序列可读存储介质正则化技术参数问答装置

系统为您推荐了相关专利信息

一种结合犯罪预测和群智响应的城市应急预警方法及系统

无人机预警方法随机森林模型城市应急预警系统基因

基座模型训练方法、任务执行方法、设备、介质及产品

模型训练方法初始聚类中心基座音乐标签

一种基于信息约束生成对抗网络的航空仿真信号智能加噪方法

生成对抗网络加噪方法仿真数据仿真信号编码向量

一种安防智能门禁的入侵检测方法及系统

生物识别验证异常状态安防智能入侵检测方法轨迹

基于暂态响应的电力系统小干扰稳定分析方法

电力系统小干扰暂态过程优化搜索算法建立电力系统卷积模型

视觉问答方法、装置、计算机设备及计算机可读存储介质

站点导航

APP 下载