摘要
本申请属于人工智能领域,应用于金融问答领域中,涉及一种基于多模态感知的视觉问答方法,包括接收待回答数据,其中,所述待回答数据包括目标文本问题和目标视觉数据;基于预设的编码模型对所述目标视觉数据进行编码操作,得到目标特征;将所述目标特征输入至预设的因果转换模型中,进行因果转换操作,得到输出的目标因果特征;基于所述目标因果特征、所述目标文本问题和预设的目标自回归视觉问答模型,得到目标答案。本申请还提供一种基于多模态感知的视觉问答装置、计算机设备及存储介质。此外,本申请还涉及区块链技术,目标自回归视觉问答模型可存储于区块链中。本申请提高视觉回答的准确性。
技术关键词
视觉问答方法
视觉问答模型
多模态
视觉特征
文本
计算机可读指令
视频
序列
数据
答案
问答装置
注意力
计算机设备
可读存储介质
区块链技术
标记
编码模块
处理器
系统为您推荐了相关专利信息
运维平台
智慧消防
火灾检测系统
风险
实时监测数据
数据安全防护方法
多模型
标识符
零知识证明技术
水印嵌入