摘要
本发明提供一种视觉问答的回答生成方法、装置及电子设备,所述方法包括:获取待回答问题的问题图像,以及待回答问题的问题文本信息;将所述问题图像和所述问题文本信息输入至预先训练得到的多模态模型,得到所述多模态模型输出的能够回答所述待回答问题的回答图像和\或能够回答所述待回答问题的回答文本信息,其中,所述多模态模型基于所述问题图像和所述问题文本信息能够学习到所述问题图像的高维信息,以使所述多模态模型输出的回答图像与所述待回答问题的匹配度,和\或所述多模态模型输出的所述回答文本信息与所述待回答问题的匹配度超过匹配度阈值。实现了能够提高视觉问答的回答准确性。
技术关键词
回答生成方法
大语言模型
多模态
文本
图像训练样本
视觉
量化器
多层感知器
解码器
非暂态计算机可读存储介质
编码器
电子设备
处理器
计算机程序产品
码字
生成装置
存储器
模块
系统为您推荐了相关专利信息
网页系统
在线
自动部署方法
标记语言文件
结构化界面
评估指标体系
策略
生成决策建议
木桶效应
抽取系统
食品安全风险评估
食品安全事件
数据分析模块
移动平均时间序列模型
食品类别
惯性传感器
人工肝
多模态
动静脉
压力传感器阵列