视觉特征和语言特征深度融合方法、装置、设备及介质

正文

推荐专利

申请号：CN202511185251

申请日期：2025-08-22

公开号：CN121033611A

公开日期：2025-11-28

类型：发明专利

摘要

本发明涉及人工智能技术领域，可应用于金融科技、医疗健康等业务系统平台中，揭露了一种视觉特征和语言特征深度融合方法、装置、设备及介质，所述方法包括：利用预设视觉编码器提取待融合图像的第一视觉特征序列，利用预设多层感知机和待融合文本的文本特征维度对第一视觉特征序列进行维度映射，得到第二视觉特征序列，对待融合文本进行分词与嵌入处理，并与第二视觉特征序列在序列维度上拼接，对拼接后的融合特征序列进行文本模态路径和视觉模态路径的自注意力分析与融合，将得到的融合注意力输出拆分为文本特征部分和视觉特征部分，进行前馈处理与特征融合，得到目标视觉语言融合特征。本发明提高了视觉与语言的跨模态融合效率以及稳定性。

技术关键词

深度融合方法文本融合特征序列注意力多层感知机融合视觉特征图像块特征参数分词视觉特征提取处理器融合装置人工智能技术医疗健康对齐模块

视觉特征和语言特征深度融合方法、装置、设备及介质

站点导航

APP 下载