摘要
本发明涉及一种基于模型解耦的视觉语言推理方法、装置和存储介质,方法包括:获取待推理的问题描述和视觉图像,并载入预先构建并训练好的视觉语言推理框架中,获得推理结果;所述视觉语言推理框架包括感知模块和推理模块,所述感知模块用于对所述视觉图像进行文本形式的提取和表达,获得文本信息;所述推理模块用于根据所述问题描述和感知模块输出的文本信息进行文本推理,生成回答结果。与现有技术相比,本发明可以显示地解耦模型的感知能力与推理能力,基于该本框架的评估更接近模型的真实能力,利于优化迭代,使得模型取得更好的推理效果。
技术关键词
推理方法
视觉
文本
模块
框架
推理系统
可读存储介质
指令
图像
处理器
存储器
计算机
网络
模板
基础
系统为您推荐了相关专利信息
石油催化裂化装置
管道壁厚
气体浓度传感器
多模态
风险预警方法
存储表
分布式协同
大数据分析系统
备份
TensorFlow框架
宠物机器人
信息采集模块
控制模块
控制系统
音乐
原发性干燥综合征
转录组测序数据
分子分型方法
分型系统
矩阵分解算法