一种自适应指代表达理解方法、系统及存储介质

正文

推荐专利

申请号：CN202411378289

申请日期：2024-09-30

公开号：CN119378682A

公开日期：2025-01-28

类型：发明专利

摘要

本发明提供一种自适应指代表达理解方法、系统及存储介质，通过文本编码器提取得到文本特征后，在视觉编码器中通过门控机制将文本特征与视觉编码器中不同网络层提取得到的视觉特征进行整合以得到多模态特征嵌入，基于此多模态特征嵌入更新视觉编码器中网络层的参数，从而对视觉特征进行更新，得到最终视觉特征；最后基于文本特征与最终视觉特征，通过多模态解码器和前向神经网络进行聚合并预测，在图像中定位文本描述的目标位置。本发明通过引导参数更新的方式，使得视觉编码器可以基于文本信息关注到文本所指代区域，提升视觉编码器在指代表达理解任务上的性能，大大提升了指代表达理解任务的结果准确度。

技术关键词

多模态特征视觉特征提取矩阵图像文本编码器交叉注意力机制代表解码器参数特征提取模块线性坐标定位模块理解系统融合视觉

系统为您推荐了相关专利信息

一种基于深度学习的SAR方位向欠采样成像方法与系统

成像方法回波网络参数图像

基于卷积神经网络和Kmeans聚类算法的皮肤评估方法、装置、设备及介质

算法样本主成分分析法协方差矩阵特征值

一种基于多模态大模型的智能决策方法及相关设备

分区病虫害多模态智能决策方法文本

一种工程师自动验证辅助系统

测试用例管理辅助系统项目管理服务器自动化测试脚本 AI服务器

一种在复杂点云环境中标定板圆孔的检测方法及系统

标定板测试场景点云数据邻域

一种自适应指代表达理解方法、系统及存储介质

站点导航

APP 下载