摘要
本申请公开了基于多模态对齐的图文问答方法、系统、电子设备及介质,方法包括:响应于对话指令,获取当前的对话回合对应的场景图像以及问题文本,并确定场景图像对应的初始权重;获取预设的多模态特征对齐模型的历史图像特征集合和历史文本特征集合;将场景图像以及问题文本输入特征提取模块进行特征提取,输出图像特征以及文本特征;将图像特征和初始权重合并至历史图像特征集合,得到图像编码集合,并将文本特征合并至历史文本特征集合,得到对话编码集合;通过权重匹配模块对图像编码集合和对话编码集合进行语义对齐;根据语义对齐后的目标图像编码特征生成回复文本。在本发明实施例中,能够将图像特征与文本数据有效结合,生成精确回答。
技术关键词
问答方法
文本
特征提取模块
多模态特征
图文
匹配模块
图像编码器
场景
计算机可执行指令
语义
大语言模型
变压器
记忆
电子设备
系统为您推荐了相关专利信息
运维
储能系统
信息管理平台
大语言模型
可执行程序代码
号码识别方法
随机森林模型
节点
非暂态计算机可读存储介质
异常用户
文本
图像
多模态特征融合
通道注意力机制
融合特征