基于多阶渐进对齐的多模态语义理解方法、装置、计算机设备和存储介质

正文

推荐专利

申请号：CN202511236767

申请日期：2025-09-01

公开号：CN120744143A

公开日期：2025-10-03

类型：发明专利

摘要

本申请实施例提供了一种基于多阶渐进对齐的多模态语义理解方法、装置、计算机设备和存储介质，所述方法包括：将接收的每种数据分别输入对应的预设编码器中，对输出的至少两种数据特征进行分组，将每个数据特征组输入预设粗对齐模块，确定每个数据特征组对应的匹配得分，并筛选匹配得分超过预设阈值的数据特征组；构建图注意力网络，将筛选的每个数据特征组输入图注意力网络，对输出的第一融合特征进行迭代；将迭代后特征输入预设语义修正模块，将输出的对齐后特征输入预设多模态注意力模型，生成所有特征组的第二融合特征，通过粗对齐模块、图注意力网络和语义修正模块三阶段动态对齐机制解决了现有跨模态语义理解中语义信息损失严重的问题。

技术关键词

多模态注意力模型文本编码器图像编码器对齐模块融合特征语义理解方法音频编码器视频编码器网络视频数据特征计算机设备表达式多层感知机

系统为您推荐了相关专利信息

诊断信息驱动的多模态病历相似性检索系统

检索系统电子病历数据语义多模态三元组损失函数

一种基于多任务卷积神经网络的桑叶采摘机器人综合视觉信息采集方法

多任务卷积神经网络采摘机器人信息采集方法桑树融合特征

基于多车协同机制的鲁棒性语义矢量地图构建方法及系统

矢量地图多车协同融合特征鲁棒性图像

基于视觉曼巴的轨道表面缺陷检测方法及装置、存储介质、电子设备

多层次特征连续性融合特征表面缺陷检测方法全向

基于融合特征的异常子图检测方法

融合特征残差矩阵检测器特征提取器线性模块

基于多阶渐进对齐的多模态语义理解方法、装置、计算机设备和存储介质

站点导航

APP 下载