基于多模态对齐的图文问答方法、系统、电子设备及介质

正文

推荐专利

申请号：CN202411756602

申请日期：2024-11-29

公开号：CN119649044A

公开日期：2025-03-18

类型：发明专利

摘要

本申请公开了基于多模态对齐的图文问答方法、系统、电子设备及介质，方法包括：响应于对话指令，获取当前的对话回合对应的场景图像以及问题文本，并确定场景图像对应的初始权重；获取预设的多模态特征对齐模型的历史图像特征集合和历史文本特征集合；将场景图像以及问题文本输入特征提取模块进行特征提取，输出图像特征以及文本特征；将图像特征和初始权重合并至历史图像特征集合，得到图像编码集合，并将文本特征合并至历史文本特征集合，得到对话编码集合；通过权重匹配模块对图像编码集合和对话编码集合进行语义对齐；根据语义对齐后的目标图像编码特征生成回复文本。在本发明实施例中，能够将图像特征与文本数据有效结合，生成精确回答。

技术关键词

问答方法文本特征提取模块多模态特征图文匹配模块图像编码器场景计算机可执行指令语义大语言模型变压器记忆电子设备

系统为您推荐了相关专利信息

运维方案管理方法、装置、电子设备及存储介质

运维储能系统信息管理平台大语言模型可执行程序代码

文生图模型训练和文生图方法、装置、设备、存储介质及计算机程序产品

噪声图像文本样本模型训练方法空间填充曲线

基于人工智能的颞下颌关节病自动诊断方法及系统

自动诊断方法患者数据生成器校正机制量子态

异常号码识别方法、装置、电子设备、存储介质及产品

号码识别方法随机森林模型节点非暂态计算机可读存储介质异常用户

基于双不确定性引导网络的多模态讽刺检测方法及系统

文本图像多模态特征融合通道注意力机制融合特征

基于多模态对齐的图文问答方法、系统、电子设备及介质

站点导航

APP 下载