摘要
本发明属于视觉定位技术领域,涉及一种基于特征增强与语言感知属性引导的视觉定位方法。其核心在于高效整合了特征增强与语言感知属性引导两大关键模块。在特征增强环节,本发明方法通过视觉语义特征的多轮引导,精炼出高区分度的多模态特征,从而极大强化目标对象的特征显著性,确保其与背景及其他非目标对象特征清晰可辨。在语言感知属性引导方面,本发明方法深度挖掘文本嵌入与视觉表征间的深层语义耦合,精准捕获与目标对象高度相关的核心属性信息,并以此优化初始化目标查询,为后续的精准定位奠定坚实基础。
技术关键词
视觉定位方法
语义特征
模态特征
对象
跨模态
阶段
多头注意力机制
文本
融合视觉特征
视觉定位技术
编码器
视觉特征提取
查询特征
多层感知机
标记
度函数
系统为您推荐了相关专利信息
缺陷智能检测方法
多模态
图像色彩归一化
结构声音
轨道交通供电系统
浮选泡沫
多模态深度
深度强化学习
关键工艺参数
深度特征提取
网络流量数据
DBSCAN算法
加密恶意流量
神经网络模型
样本
智能化工程
李雅普诺夫指数
动态权重分配
管理系统
生成控制指令