摘要
本发明提供了一种多维增强的开放词汇视频实例分割方法,包括:步骤1,通过数学建模与分析,提出一种新型的开放词汇分割思想;步骤2,对用户输入的视频进行预处理,进行帧采样,并通过分别强化类别文本和图像特征、查询向量的交互,在Transformer架构中实现类别相关的分割;步骤3,采用实例驱动的TopK时序匹配策略,提高跨帧匹配的稳定性与准确性;步骤4,通过多尺度特征融合提升类别识别能力,优化目标分类。本发明能够高效进行开放词汇视频实例分割,并广泛应用于视频监控、自动驾驶、视频索引等领域,推动视频理解与推理技术的发展。
技术关键词
记忆存储单元
对象
视频实例分割方法
文本编码器
像素
融合特征
图像编码器
时序
多尺度特征融合
解码器
置信度阈值
语义
预训练模型
文本特征向量
自然语言
融合策略
系统为您推荐了相关专利信息
网络策略管理
风险管控方法
风险管控系统
资源分配
智能化数据采集
纳米晶磁芯
喷涂层
视觉传感器
边缘检测算法
输入控制系统
生成提示信息
大语言模型
样本
文案生成方法
编码特征
面向输电线路巡检
抓取方法
输电线路异物
输电线路上异物
边缘轮廓