摘要
本申请公开了基于多模态对齐的图文问答方法、系统、电子设备及介质,方法包括:响应于对话指令,获取当前的对话回合对应的场景图像以及问题文本,并确定场景图像对应的初始权重;获取预设的多模态特征对齐模型的历史图像特征集合和历史文本特征集合;将场景图像以及问题文本输入特征提取模块进行特征提取,输出图像特征以及文本特征;将图像特征和初始权重合并至历史图像特征集合,得到图像编码集合,并将文本特征合并至历史文本特征集合,得到对话编码集合;通过权重匹配模块对图像编码集合和对话编码集合进行语义对齐;根据语义对齐后的目标图像编码特征生成回复文本。在本发明实施例中,能够将图像特征与文本数据有效结合,生成精确回答。
技术关键词
问答方法
文本
特征提取模块
多模态特征
图文
匹配模块
图像编码器
场景
计算机可执行指令
语义
大语言模型
变压器
记忆
电子设备
系统为您推荐了相关专利信息
专家系统
前馈神经网络
多层感知器
分类特征
神经网络加速方法
词语
文档分类方法
训练主题模型
预训练语言模型
语义
环境图像数据
模型生成方法
注意力模型
运动轨迹预测方法
多模态特征融合
频率调制器
样本
重建人脸
人脸图像超分辨率
网络
视频监控数据
数字孪生模型
物联设备
边缘代理服务器
三维模型