视觉问答的回答生成方法、装置及电子设备

正文

推荐专利

视觉问答的回答生成方法、装置及电子设备

申请号：CN202510702544

申请日期：2025-05-28

公开号：CN120597897A

公开日期：2025-09-05

类型：发明专利

摘要

本发明提供一种视觉问答的回答生成方法、装置及电子设备，所述方法包括：获取待回答问题的问题图像，以及待回答问题的问题文本信息；将所述问题图像和所述问题文本信息输入至预先训练得到的多模态模型，得到所述多模态模型输出的能够回答所述待回答问题的回答图像和\或能够回答所述待回答问题的回答文本信息，其中，所述多模态模型基于所述问题图像和所述问题文本信息能够学习到所述问题图像的高维信息，以使所述多模态模型输出的回答图像与所述待回答问题的匹配度，和\或所述多模态模型输出的所述回答文本信息与所述待回答问题的匹配度超过匹配度阈值。实现了能够提高视觉问答的回答准确性。

技术关键词

回答生成方法大语言模型多模态文本图像训练样本视觉量化器多层感知器解码器非暂态计算机可读存储介质编码器电子设备处理器计算机程序产品码字生成装置存储器模块

系统为您推荐了相关专利信息

在线文档系统的自动部署方法、设备及存储介质

网页系统在线自动部署方法标记语言文件结构化界面

一种用于智能化评估的多因果关系抽取方法及系统

评估指标体系策略生成决策建议木桶效应抽取系统

一种基于大数据分析的食品安全风险评估系统

食品安全风险评估食品安全事件数据分析模块移动平均时间序列模型食品类别

基于多模态传感的人工肝动静脉管路防移位系统及其监测方法

惯性传感器人工肝多模态动静脉压力传感器阵列

内容提取方法、系统、设备、存储介质及程序产品

图像文本对象条目内容提取方法

视觉问答的回答生成方法、装置及电子设备

站点导航

APP 下载