摘要
本发明提出了一种通过增量信息感知增强视频描述生成的方法及系统。该方法通过构建包含语义增量信息感知模型和结构增量信息感知模型的视频描述生成模型,分别捕捉视频中的详细语义信息和关键结构内容,量化所有描述的语义和结构信息,并在训练过程中利用低信息量描述监督基本编码器以捕获基础视频信息,利用高信息量描述共同监督基本编码器和增量信息编码器,从而引导模型感知和利用从基础信息到更丰富信息的增量信息。在推理阶段,通过融合语义增量信息感知模型和结构增量信息感知模型来补偿语义增量信息感知模型在理解视频主要信息方面的局限性,提高了视频描述生成的准确率和语义丰富度。
技术关键词
信息编码器
解码器
融合语义
视频帧
生成结构
输入结构
模块
全局特征提取
基础
序列
阶段
参数
周期
数据
文本
系统为您推荐了相关专利信息
媒体文件生成方法
多媒体显示终端
生成特征
数据
采集终端
半导体存储器装置
无源元件
存储器单元
芯片
核心
融合语义信息
稀疏深度图
激光雷达
雷达点云数据
稠密深度图