摘要
本申请实施例提供一种图文问答处理方法、电子设备及计算机可读存储介质。涉及人工智能领域,该方法包括:获取问题信息;基于多个目标图像分别进行语义提取,生成多个目标图像分别对应的图像描述信息;分别在各图像描述信息包括的多个候选描述元素中,确定与语料元素相匹配的目标描述元素;按照同一语料元素分别与不同目标图像的目标描述元素之间的第一对应关系,确定属于不同目标图像的目标子图区域之间的第二对应关系,目标描述元素与目标子图区域相对应;依据问题信息、图像描述信息、第一对应关系以及第二对应关系,得到问题信息的回答结果。本申请解决了相关技术难以捕捉文本和图像之间关联,导致问答结果准确性不足的技术问题。
技术关键词
元素
阶段
可读存储介质
关系
语义
正确率
电子设备
图文
文本
图像嵌入
计算机
数据
训练集
处理器
存储器
视频
样本
意图
链路
系统为您推荐了相关专利信息
对话生成方法
心理健康
大语言模型
文本
语义向量空间
变焦光学系统
透镜组
监控镜头
玻璃非球面透镜
塑料非球面透镜
集成管理方法
自然语言
半导体
指令
数据分析单元
程度量化方法
旋转机械故障
冲击特征
冲击故障
广义