一种基于语义一致性与运动感知的参考视频对象分割方法

正文

推荐专利

申请号：CN202510626375

申请日期：2025-05-15

公开号：CN120526350B

公开日期：2025-10-10

类型：发明专利

摘要

本发明公开了一种基于语义一致性与运动感知的参考视频对象分割方法。所述方法包括如下步骤：1.构建参考视频对象分割数据集的语义提示信息和视频帧信息；2.对参考视频对象分割数据集进行预处理；3.建立基于语义一致性与运动感知的参考视频对象分割模型：设计双分支解耦策略用于在语义和视觉层面对特征信息进行解耦，从而提取文本描述与视觉特征的静态和运动信息；设计分层运动感知模块用于捕捉并对齐不同帧间的运动信息，解析短期和长期运动信息，从而使模型获得对长期运动模式的感知能力；设计语义一致性模块用于对齐语义描述与视频特征，从而提高目标选择的正确率和掩码的完整性，避免负样本误检；设计感知动态融合机制用于将文本信息嵌入到视觉特征空间，使视觉特征能够获取文本语义信息，从而增强模型的跨模态理解能力；4.构建损失函数，更新模型参数，设置训练参数，进行训练，得到最佳权重；5.基于最佳权重来检测测试集图像，得到最终分割结果。本发明有效地解耦了静态和动态信息，增强了对物体运动模式的感知能力，提升了分割性能。

技术关键词

视频对象分割方法运动感知模块语义动态融合机制视觉特征词特征处理单元视频帧信息更新模型参数文本编码器重构运动特征视频特征提取交叉注意力机制嵌入工具

系统为您推荐了相关专利信息

一种企业知识图谱推理补全方法及推理补全系统

企业知识图谱补全方法三元组矩阵门控神经网络

一种基于OCR技术的会议纪要自动生成方法及系统

会议纪要自动生成方法语义模板动态权重分配自定义手势

疾病早期预警方法及装置

人机交互数据早期预警方法 Softmax分类器学生教师

一种拓展式文本标注方法及系统

实体关系文本标注方法文本标注系统模块

一种基于多模态语料库的英语翻译训练方法

混合损失函数平行语料库文本句法结构对齐技术

一种基于语义一致性与运动感知的参考视频对象分割方法

站点导航

APP 下载