基于多模态感知的视觉问答方法及其相关设备

AITNT
正文
推荐专利
基于多模态感知的视觉问答方法及其相关设备
申请号:CN202411579162
申请日期:2024-11-06
公开号:CN119669997A
公开日期:2025-03-21
类型:发明专利
摘要
本申请属于人工智能领域,应用于金融问答领域中,涉及一种基于多模态感知的视觉问答方法,包括接收待回答数据,其中,所述待回答数据包括目标文本问题和目标视觉数据;基于预设的编码模型对所述目标视觉数据进行编码操作,得到目标特征;将所述目标特征输入至预设的因果转换模型中,进行因果转换操作,得到输出的目标因果特征;基于所述目标因果特征、所述目标文本问题和预设的目标自回归视觉问答模型,得到目标答案。本申请还提供一种基于多模态感知的视觉问答装置、计算机设备及存储介质。此外,本申请还涉及区块链技术,目标自回归视觉问答模型可存储于区块链中。本申请提高视觉回答的准确性。
技术关键词
视觉问答方法 视觉问答模型 多模态 视觉特征 文本 计算机可读指令 视频 序列 数据 答案 问答装置 注意力 计算机设备 可读存储介质 区块链技术 标记 编码模块 处理器
系统为您推荐了相关专利信息
1
交互方法、装置、存储介质、设备及程序产品
多模态 交互方法 页面 服务端 数据
2
一种文本-视频跨模态事件要素抽取方法
事件要素抽取方法 文本 跨模态 视频共享 数据
3
一种基于人工智能的智慧消防运维平台
运维平台 智慧消防 火灾检测系统 风险 实时监测数据
4
一种基于知识图谱的智能电厂运维决策支持方法及系统
决策支持方法 运维 实体 关系 数据采集模块
5
一种基于多模型协作的科研数据安全防护方法
数据安全防护方法 多模型 标识符 零知识证明技术 水印嵌入
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号