基于多模态对齐的图文问答方法、系统、电子设备及介质

AITNT
正文
推荐专利
基于多模态对齐的图文问答方法、系统、电子设备及介质
申请号:CN202411756602
申请日期:2024-11-29
公开号:CN119649044A
公开日期:2025-03-18
类型:发明专利
摘要
本申请公开了基于多模态对齐的图文问答方法、系统、电子设备及介质,方法包括:响应于对话指令,获取当前的对话回合对应的场景图像以及问题文本,并确定场景图像对应的初始权重;获取预设的多模态特征对齐模型的历史图像特征集合和历史文本特征集合;将场景图像以及问题文本输入特征提取模块进行特征提取,输出图像特征以及文本特征;将图像特征和初始权重合并至历史图像特征集合,得到图像编码集合,并将文本特征合并至历史文本特征集合,得到对话编码集合;通过权重匹配模块对图像编码集合和对话编码集合进行语义对齐;根据语义对齐后的目标图像编码特征生成回复文本。在本发明实施例中,能够将图像特征与文本数据有效结合,生成精确回答。
技术关键词
问答方法 文本 特征提取模块 多模态特征 图文 匹配模块 图像编码器 场景 计算机可执行指令 语义 大语言模型 变压器 记忆 电子设备
系统为您推荐了相关专利信息
1
跨领域的快速虚假新闻检测方法及系统
专家系统 前馈神经网络 多层感知器 分类特征 神经网络加速方法
2
文档分类方法和电子设备
词语 文档分类方法 训练主题模型 预训练语言模型 语义
3
灵巧手多模态运动轨迹预测模型生成方法及相关装置
环境图像数据 模型生成方法 注意力模型 运动轨迹预测方法 多模态特征融合
4
一种可防御对抗攻击的人脸图像超分辨率方法、系统及存储介质
频率调制器 样本 重建人脸 人脸图像超分辨率 网络
5
评标基地全要素实时联动监管方法及系统
视频监控数据 数字孪生模型 物联设备 边缘代理服务器 三维模型
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号