摘要
本发明提供了基于层次化预定义知识学习的长时活动分析方法和系统,方法包括:利用多模态语义一致性,通过对比学习将教程活动的视频片段与其对应的文本描述嵌入联合语义空间,学习出视觉语言联合表示先验分布;从下游数据集中按比例采样出部分视频文本对样本,对它们的表示进行聚类,对于不同粒度的层级,构造一个对应的知识图;构成体系化预定义知识图;查找每层知识图中匹配度最高的概念节点,通过自注意融合策略将概念节点的表示进行融合,再与给定模态的样本的原始表示融合,得到样本的增强特征表示。本发明的优点在于:提出的体系化预定义知识增强方法在行为分割任务上达到了最佳性能,帧级准确度得到提高。
技术关键词
节点
分析方法
信息更新
样本
概念
语义
文本编码器
视频编码器
多模态
序列
融合策略
松弛
分析系统
视觉
层级
聚类
网络
模块
系统为您推荐了相关专利信息
无线电地图
神经网络模型
卷积模块
路径损耗估计
基站
人工智能模型
肿瘤
图像分析方法
医学影像设备
指标
再生混凝土
性能检测系统
有限元模拟方法
电场辅助装置
均匀分布特征
轴承故障诊断方法
桥式起重机
特征提取模型
传动系统
特征提取网络
基底特征
综合检测方法
多模态
缺陷尺寸
缺陷类别