摘要
本发明涉及一种基于自监督辅助学习的面向文本引导的视频对象提取方法,包括:第一特征提取模块、第二特征提取模块分别依据待测视频与文本获取相应的视觉、文本特征信息,特征融合模块据此生成第一多模态特征信息、第二多模态特征信息,自监督辅助学习模型以第一多模态特征信息为输入,输出预测文本特征信息,第二特征提取模块依此自我更新,视频对象提取模块利用第二多模态特征信息训练模型,最终提取待测视频里文本引导的对象。如此设置,本发明利用自监督辅助学习模型,无需增加额外的样本,能够更有效地利用文本信息,从而准确、完整地提取视频中由文本引导的对象。
技术关键词
视频对象提取方法
特征提取模块
多模态特征
视觉特征信息
文本
像素
样本
代表
误差
系统为您推荐了相关专利信息
HTTP请求报文
诊断设备
响应报文转换
节点
超文本传输协议
隧道施工监测系统
图像特征提取
模型训练模块
图像采集模块
监测方法
医学图像分割方法
特征提取模块
样本
代表
sigmoid函数