摘要
本发明提供了一种细粒度语义感知辅助边界定位的视频密集描述方法,包括有以下步骤:步骤一:进行特征提取和编码;步骤二:构建事件编码模块;步骤三:语义感知增强的事件解码;步骤四:损失函数优化;通过将解码器视为一个多头预测任务来克服仅采用事件起止时间作为直接监督信息,而致使在定位和描述这两个阶段之间仅产生有限相关性的问题;并在此基础上,针对这种有限相关性问题在边界过度平滑的情况下,定位更加困难的不足,还提出通过在框架中引入语言语义感知信息来增强模型有效学习前背景之间差异性特征,以增加边界感知能力来解决由于过度平滑导致定位不清的问题,提高了学习噪声事件实例鲁棒特征的能力,实现更精准定位。
技术关键词
损失函数优化
视频
语义层面
事件特征
视觉特征
文本生成器
编码模块
跨模态
鲁棒特征
噪声事件
序列
多尺度特征
解码器
解码模块
输出特征
语句
矩阵
定位头
系统为您推荐了相关专利信息
无人塔机
环境感知系统
动力供应系统
远程监控系统
架设系统
摄像头镜片
车用
视频传输接口
车辆驾驶监控技术
补光灯
智能体训练方法
模型训练方法
样本
选址方法
状态更新
特征提取方法
功能成像
特征提取模型
特征提取网络
积层