摘要
本发明公开了一种视觉与文本对齐的方法及系统,属于人工智能和多模态语义理解技术领域。本发明为解决现有多模态问答中视觉与语言深度融合不足的问题,主要采用将视觉特征通过感知机网络映射至语言模型的自注意力输入空间,并在语言模型的各层解码器中引入融合注意力机制,实现视觉与文本的逐层交互处理。本发明能够实现视觉信息与文本语义的深度对齐与融合,提升多模态问答系统的理解与生成能力。
技术关键词
文本
多层感知机
解码器
网络模块
融合特征
融合注意力机制
语义理解技术
矩阵
多模态
问答系统
视觉特征
非线性
输入键
分词
系统为您推荐了相关专利信息
BERT模型
刻画方法
子空间特征提取
爬虫爬取
词向量训练
深度神经网络模型
虹膜图像分割方法
联合损失函数
多通道图像数据
神经网络模型构建