一种基于自监督辅助学习的面向文本引导的视频对象提取方法

AITNT
正文
推荐专利
一种基于自监督辅助学习的面向文本引导的视频对象提取方法
申请号:CN202411990809
申请日期:2025-04-08
公开号:CN119964048A
公开日期:2025-05-09
类型:发明专利
摘要
本发明涉及一种基于自监督辅助学习的面向文本引导的视频对象提取方法,包括:第一特征提取模块、第二特征提取模块分别依据待测视频与文本获取相应的视觉、文本特征信息,特征融合模块据此生成第一多模态特征信息、第二多模态特征信息,自监督辅助学习模型以第一多模态特征信息为输入,输出预测文本特征信息,第二特征提取模块依此自我更新,视频对象提取模块利用第二多模态特征信息训练模型,最终提取待测视频里文本引导的对象。如此设置,本发明利用自监督辅助学习模型,无需增加额外的样本,能够更有效地利用文本信息,从而准确、完整地提取视频中由文本引导的对象。
技术关键词
视频对象提取方法 特征提取模块 多模态特征 视觉特征信息 文本 像素 样本 代表 误差
系统为您推荐了相关专利信息
1
车辆诊断方法、装置、芯片及车辆
HTTP请求报文 诊断设备 响应报文转换 节点 超文本传输协议
2
一种基于场景感知信息的多模反馈智能交互系统
传感模块 语音智能交互系统 文本 音频 心理
3
基于分治健忘症的增量目标检测方法和系统
嵌入特征 视觉特征 解码模块 语义特征 对象
4
一种隧道施工监测系统及监测方法
隧道施工监测系统 图像特征提取 模型训练模块 图像采集模块 监测方法
5
一种结合CNN和SAM的少样本医学图像分割方法
医学图像分割方法 特征提取模块 样本 代表 sigmoid函数
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号