基于多模态感知的视觉问答方法及其相关设备

正文

推荐专利

申请号：CN202411579162

申请日期：2024-11-06

公开号：CN119669997A

公开日期：2025-03-21

类型：发明专利

摘要

本申请属于人工智能领域，应用于金融问答领域中，涉及一种基于多模态感知的视觉问答方法，包括接收待回答数据，其中，所述待回答数据包括目标文本问题和目标视觉数据；基于预设的编码模型对所述目标视觉数据进行编码操作，得到目标特征；将所述目标特征输入至预设的因果转换模型中，进行因果转换操作，得到输出的目标因果特征；基于所述目标因果特征、所述目标文本问题和预设的目标自回归视觉问答模型，得到目标答案。本申请还提供一种基于多模态感知的视觉问答装置、计算机设备及存储介质。此外，本申请还涉及区块链技术，目标自回归视觉问答模型可存储于区块链中。本申请提高视觉回答的准确性。

技术关键词

视觉问答方法视觉问答模型多模态视觉特征文本计算机可读指令视频序列数据答案问答装置注意力计算机设备可读存储介质区块链技术标记编码模块处理器

系统为您推荐了相关专利信息

交互方法、装置、存储介质、设备及程序产品

多模态交互方法页面服务端数据

一种文本-视频跨模态事件要素抽取方法

事件要素抽取方法文本跨模态视频共享数据

一种基于人工智能的智慧消防运维平台

运维平台智慧消防火灾检测系统风险实时监测数据

一种基于知识图谱的智能电厂运维决策支持方法及系统

决策支持方法运维实体关系数据采集模块

一种基于多模型协作的科研数据安全防护方法

数据安全防护方法多模型标识符零知识证明技术水印嵌入

基于多模态感知的视觉问答方法及其相关设备

站点导航

APP 下载