基于多模态对齐的图文问答方法、系统、电子设备及介质

AITNT
正文
推荐专利
基于多模态对齐的图文问答方法、系统、电子设备及介质
申请号:CN202411756602
申请日期:2024-11-29
公开号:CN119649044A
公开日期:2025-03-18
类型:发明专利
摘要
本申请公开了基于多模态对齐的图文问答方法、系统、电子设备及介质,方法包括:响应于对话指令,获取当前的对话回合对应的场景图像以及问题文本,并确定场景图像对应的初始权重;获取预设的多模态特征对齐模型的历史图像特征集合和历史文本特征集合;将场景图像以及问题文本输入特征提取模块进行特征提取,输出图像特征以及文本特征;将图像特征和初始权重合并至历史图像特征集合,得到图像编码集合,并将文本特征合并至历史文本特征集合,得到对话编码集合;通过权重匹配模块对图像编码集合和对话编码集合进行语义对齐;根据语义对齐后的目标图像编码特征生成回复文本。在本发明实施例中,能够将图像特征与文本数据有效结合,生成精确回答。
技术关键词
问答方法 文本 特征提取模块 多模态特征 图文 匹配模块 图像编码器 场景 计算机可执行指令 语义 大语言模型 变压器 记忆 电子设备
系统为您推荐了相关专利信息
1
运维方案管理方法、装置、电子设备及存储介质
运维 储能系统 信息管理平台 大语言模型 可执行程序代码
2
文生图模型训练和文生图方法、装置、设备、存储介质及计算机程序产品
噪声图像 文本 样本 模型训练方法 空间填充曲线
3
基于人工智能的颞下颌关节病自动诊断方法及系统
自动诊断方法 患者 数据生成器 校正机制 量子态
4
异常号码识别方法、装置、电子设备、存储介质及产品
号码识别方法 随机森林模型 节点 非暂态计算机可读存储介质 异常用户
5
基于双不确定性引导网络的多模态讽刺检测方法及系统
文本 图像 多模态特征融合 通道注意力机制 融合特征
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号