一种基于自监督辅助学习的面向文本引导的视频对象提取方法

正文

推荐专利

申请号：CN202411990809

申请日期：2025-04-08

公开号：CN119964048A

公开日期：2025-05-09

类型：发明专利

摘要

本发明涉及一种基于自监督辅助学习的面向文本引导的视频对象提取方法，包括：第一特征提取模块、第二特征提取模块分别依据待测视频与文本获取相应的视觉、文本特征信息，特征融合模块据此生成第一多模态特征信息、第二多模态特征信息，自监督辅助学习模型以第一多模态特征信息为输入，输出预测文本特征信息，第二特征提取模块依此自我更新，视频对象提取模块利用第二多模态特征信息训练模型，最终提取待测视频里文本引导的对象。如此设置，本发明利用自监督辅助学习模型，无需增加额外的样本，能够更有效地利用文本信息，从而准确、完整地提取视频中由文本引导的对象。

技术关键词

视频对象提取方法特征提取模块多模态特征视觉特征信息文本像素样本代表误差

系统为您推荐了相关专利信息

车辆诊断方法、装置、芯片及车辆

HTTP请求报文诊断设备响应报文转换节点超文本传输协议

一种基于场景感知信息的多模反馈智能交互系统

传感模块语音智能交互系统文本音频心理

基于分治健忘症的增量目标检测方法和系统

嵌入特征视觉特征解码模块语义特征对象

一种隧道施工监测系统及监测方法

隧道施工监测系统图像特征提取模型训练模块图像采集模块监测方法

一种结合CNN和SAM的少样本医学图像分割方法

医学图像分割方法特征提取模块样本代表 sigmoid函数

一种基于自监督辅助学习的面向文本引导的视频对象提取方法

站点导航

APP 下载