摘要
本发明涉及人工智能技术领域,可应用于金融科技、医疗健康等业务系统平台中,揭露了一种视觉特征和语言特征深度融合方法、装置、设备及介质,所述方法包括:利用预设视觉编码器提取待融合图像的第一视觉特征序列,利用预设多层感知机和待融合文本的文本特征维度对第一视觉特征序列进行维度映射,得到第二视觉特征序列,对待融合文本进行分词与嵌入处理,并与第二视觉特征序列在序列维度上拼接,对拼接后的融合特征序列进行文本模态路径和视觉模态路径的自注意力分析与融合,将得到的融合注意力输出拆分为文本特征部分和视觉特征部分,进行前馈处理与特征融合,得到目标视觉语言融合特征。本发明提高了视觉与语言的跨模态融合效率以及稳定性。
技术关键词
深度融合方法
文本
融合特征
序列
注意力
多层感知机
融合视觉特征
图像块特征
参数
分词
视觉特征提取
处理器
融合装置
人工智能技术
医疗健康
对齐模块