摘要
本发明公开了一种基于语义一致性与运动感知的参考视频对象分割方法。所述方法包括如下步骤:1.构建参考视频对象分割数据集的语义提示信息和视频帧信息;2.对参考视频对象分割数据集进行预处理;3.建立基于语义一致性与运动感知的参考视频对象分割模型:设计双分支解耦策略用于在语义和视觉层面对特征信息进行解耦,从而提取文本描述与视觉特征的静态和运动信息;设计分层运动感知模块用于捕捉并对齐不同帧间的运动信息,解析短期和长期运动信息,从而使模型获得对长期运动模式的感知能力;设计语义一致性模块用于对齐语义描述与视频特征,从而提高目标选择的正确率和掩码的完整性,避免负样本误检;设计感知动态融合机制用于将文本信息嵌入到视觉特征空间,使视觉特征能够获取文本语义信息,从而增强模型的跨模态理解能力;4.构建损失函数,更新模型参数,设置训练参数,进行训练,得到最佳权重;5.基于最佳权重来检测测试集图像,得到最终分割结果。本发明有效地解耦了静态和动态信息,增强了对物体运动模式的感知能力,提升了分割性能。
技术关键词
视频对象分割方法
运动感知模块
语义
动态融合机制
视觉特征
词特征
处理单元
视频帧信息
更新模型参数
文本编码器
重构
运动特征
视频特征提取
交叉注意力机制
嵌入工具
系统为您推荐了相关专利信息
企业知识图谱
补全方法
三元组
矩阵
门控神经网络
会议纪要
自动生成方法
语义模板
动态权重分配
自定义手势
人机交互数据
早期预警方法
Softmax分类器
学生
教师
混合损失函数
平行语料库
文本
句法结构
对齐技术