一种自适应指代表达理解方法、系统及存储介质

AITNT
正文
推荐专利
一种自适应指代表达理解方法、系统及存储介质
申请号:CN202411378289
申请日期:2024-09-30
公开号:CN119378682A
公开日期:2025-01-28
类型:发明专利
摘要
本发明提供一种自适应指代表达理解方法、系统及存储介质,通过文本编码器提取得到文本特征后,在视觉编码器中通过门控机制将文本特征与视觉编码器中不同网络层提取得到的视觉特征进行整合以得到多模态特征嵌入,基于此多模态特征嵌入更新视觉编码器中网络层的参数,从而对视觉特征进行更新,得到最终视觉特征;最后基于文本特征与最终视觉特征,通过多模态解码器和前向神经网络进行聚合并预测,在图像中定位文本描述的目标位置。本发明通过引导参数更新的方式,使得视觉编码器可以基于文本信息关注到文本所指代区域,提升视觉编码器在指代表达理解任务上的性能,大大提升了指代表达理解任务的结果准确度。
技术关键词
多模态特征 视觉特征提取 矩阵 图像 文本编码器 交叉注意力机制 代表 解码器 参数 特征提取模块 线性 坐标 定位模块 理解系统 融合视觉
系统为您推荐了相关专利信息
1
一种基于深度学习的SAR方位向欠采样成像方法与系统
成像方法 回波 网络 参数 图像
2
基于卷积神经网络和Kmeans聚类算法的皮肤评估方法、装置、设备及介质
算法 样本 主成分分析法 协方差矩阵 特征值
3
一种基于多模态大模型的智能决策方法及相关设备
分区 病虫害 多模态 智能决策方法 文本
4
一种工程师自动验证辅助系统
测试用例管理 辅助系统 项目管理服务器 自动化测试脚本 AI服务器
5
一种在复杂点云环境中标定板圆孔的检测方法及系统
标定板 测试场景 点云 数据 邻域
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号