摘要
本发明属于计算机视觉与模式识别技术领域,公开了一种基于扩散模型的半监督自然语言时序定位方法及相关装置;其中,所述基于扩散模型的半监督自然语言时序定位方法包括:获取文本描述和待时序定位的视频数据,分别进行特征提取以获得文本特征和视频特征;基于文本特征和视频特征,利用预先训练的时序定位模型进行时序定位,获得时序定位结果;其中,时序定位结果包括文本描述在待时序定位的视频数据中对应的视频片段的开始时间和结束时间。本发明公开的技术方案,将扩散模型集成到教师‑学生框架中,通过加噪和去噪过程提高了伪标签的质量和可靠性,能够提升半监督自然语言时序定位的整体性能。
技术关键词
无标签数据
时序
编码器模块
融合特征
编码解码器
自然语言
定位方法
文本
视频
学生
教师
噪声数据
跨度
预训练模型
模型更新
系统为您推荐了相关专利信息
多模态数据融合
智能监测方法
光纤光栅应变
健康评估指标
光纤光栅传感器阵列
容量配置优化方法
气象
历史负荷数据
冗余
多能源
能量优化调度方法
设备健康状态
设备状态信息
能源消耗设备
多源数据融合技术
车辆行驶轨迹预测
障碍物轨迹预测
地图元素
车辆控制方法
图像特征信息