大语言模型引导伪标签增强的半监督视频描述生成方法

正文

推荐专利

申请号：CN202511394804

申请日期：2025-09-28

公开号：CN120932159A

公开日期：2025-11-11

类型：发明专利

摘要

本发明公开了大语言模型引导伪标签增强的半监督视频描述生成方法，包括：构建双路协同框架，所述双路协同框架包括视频级粗粒度伪标签生成分支和高置信度视觉元组生成分支；分别将带有基描述的视频预处理后输入双路协同框架，生成视频级粗粒度伪标签和高置信度视觉元组；将高置信度视觉元组作为细粒度视觉提示，与视频级粗粒度伪标签一同输入LLaMA大语言模型，在大语言模型的引导下完成对视频级粗粒度伪标签的增强；通过迭代自训练优化并生成最终视频描述。本发明方法，解决了现有技术中存在的少量基描述的利用未充分借助先验知识，难以充分捕捉视频结构化语义要素的细粒度差异，导致生成的视频描述出现语义偏差的问题。

技术关键词

视频视觉生成方法 TextRank算法标签文本时序特征运动编码器编解码注意力序列前馈神经网络语义特征统计算法大语言模型解码器分支