视觉问答方法、装置、计算机设备及计算机可读存储介质

AITNT
正文
推荐专利
视觉问答方法、装置、计算机设备及计算机可读存储介质
申请号:CN202411583399
申请日期:2024-11-07
公开号:CN119513346A
公开日期:2025-02-25
类型:发明专利
摘要
本申请公开了一种视觉问答方法、装置、计算机设备及计算机可读存储介质,可以利用问题引导图像实现跨模态交互,使得生成的图像特征融入问题信息,提高模态内和模态间的交互能力。所述方法包括:基于视觉问答模型,确定样本图像的自适应注意力特征图和样本问题的问题特征表示;对自适应注意力特征图和问题特征表示进行跨模态特征融合,确定样本预测答案;根据样本预测答案和样本实际答案之间的损失对视觉问答模型的模型参数进行优化,以及重新获取训练样本对视觉问答模型进行优化,直至视觉问答模型达到停止模型训练的标准,得到目标模型;响应于视觉问答指令,将待预测图像和待预测问题输入至目标模型进行预测,得到待预测问题对应的预测答案。
技术关键词
视觉问答模型 样本 答案 注意力机制 跨模态 视觉问答方法 矩阵 非线性 测试视觉 图像编码器 计算机设备 序列 可读存储介质 正则化技术 参数 问答装置
系统为您推荐了相关专利信息
1
一种结合犯罪预测和群智响应的城市应急预警方法及系统
无人机 预警方法 随机森林模型 城市应急预警系统 基因
2
基座模型训练方法、任务执行方法、设备、介质及产品
模型训练方法 初始聚类中心 基座 音乐 标签
3
一种基于信息约束生成对抗网络的航空仿真信号智能加噪方法
生成对抗网络 加噪方法 仿真数据 仿真信号 编码向量
4
一种安防智能门禁的入侵检测方法及系统
生物识别验证 异常状态 安防智能 入侵检测方法 轨迹
5
基于暂态响应的电力系统小干扰稳定分析方法
电力系统小干扰 暂态过程 优化搜索算法 建立电力系统 卷积模型
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号