摘要
本发明属于机器学习、可交互视频目标识别、单目标视觉跟踪技术领域,提出了一种面向智能机器人的可交互目标识别与跟踪算法。所述方法以人工在初始帧中单点点击为起点,通过Transformer结构提取图像与空间位置提示的深层特征,结合门控专家网络实现多模态信息的动态融合,预测目标初始边界框。在此基础上,构建多模态参考提示,包括视觉提示和空间位置提示,实现边界框的逐步精细优化。优化后的边界框可作为初始条件使用跟踪器实现目标在视频序列中的传播。该方法具备初始化成本低、标注精度高、网络结构轻量、泛化性强等优点,适用于真实环境下智能机器人交互等场景,有效提升了可交互跟踪系统的实用性与扩展能力。
技术关键词
面向智能机器人
网络
图像编码器
注意力机制
多任务
智能机器人交互
坐标
粗略
视觉跟踪技术
多模态信息
算法
交互视频
模版
线性
跟踪系统