摘要
本发明为一种基于动作提名去噪的弱监督视频时序内容定位方法和系统。获取待处理视频及对应于视频的文本描述;生成文本描述的正样例和负样例作为文本样例;将视频切帧后得到视频片段,提取视频特征;基于文本样例和文本描述提取出文本特征和文本描述特征;通过文本特征得到噪声表达,将噪声表达输入至噪声混合器与原始噪声结合得到混合噪声;将混合噪声、视频特征和文本特征输入时序扩散网络得到隐特征表达;将隐特征表达输入时序提名生成网络得到高斯建模参数,进而构建时序片段掩码;将时序片段掩码、视频特征和文本描述特征输入语义文本重建网络进行语义文本重建和组合排序学习;基于时序片段掩码和高斯建模参数得到与文本描述相关视频片段的位置。
技术关键词
文本
时序
视频
内容定位方法
噪声
语义
网络
存储计算机程序
混合器
双级结构
特征提取模块
大语言模型
混合模块
数据获取模块
参数
定位系统
定位模块
电子装置
存储器
处理器
系统为您推荐了相关专利信息
电力负荷预测方法
多源异构数据
电力负荷预测模型
门控循环单元网络
启动备用电源
驾驶姿态识别
防护方法
人体姿态识别系统
高风险
智能驾驶车辆
语言翻译方法
多头注意力机制
神经网络模型
融合特征
解码器
规则集
电子病历系统
医院实验室
数据处理方法
疾病