一种通过增量信息感知增强视频描述生成的方法及系统

正文

推荐专利

申请号：CN202510730429

申请日期：2025-06-03

公开号：CN120640092A

公开日期：2025-09-12

类型：发明专利

摘要

本发明提出了一种通过增量信息感知增强视频描述生成的方法及系统。该方法通过构建包含语义增量信息感知模型和结构增量信息感知模型的视频描述生成模型，分别捕捉视频中的详细语义信息和关键结构内容，量化所有描述的语义和结构信息，并在训练过程中利用低信息量描述监督基本编码器以捕获基础视频信息，利用高信息量描述共同监督基本编码器和增量信息编码器，从而引导模型感知和利用从基础信息到更丰富信息的增量信息。在推理阶段，通过融合语义增量信息感知模型和结构增量信息感知模型来补偿语义增量信息感知模型在理解视频主要信息方面的局限性，提高了视频描述生成的准确率和语义丰富度。

技术关键词

信息编码器解码器融合语义视频帧生成结构输入结构模块全局特征提取基础序列阶段参数周期数据文本

系统为您推荐了相关专利信息

一种流媒体文件生成方法、终端及存储介质

媒体文件生成方法多媒体显示终端生成特征数据采集终端

半导体存储器装置

半导体存储器装置无源元件存储器单元芯片核心

一种基于编解码网络的遥感影像多尺度语义分割方法

分割方法编解码全局平均池化输出特征通道

基于扩散模型的可恢复图像保护方法、系统、设备及介质

图像保护方法水印嵌入样本净化编辑子模块

一种融合语义信息的激光雷达与视觉融合深度估计系统及方法

融合语义信息稀疏深度图激光雷达雷达点云数据稠密深度图

一种通过增量信息感知增强视频描述生成的方法及系统

站点导航

APP 下载