摘要
本发明公开了大语言模型引导伪标签增强的半监督视频描述生成方法,包括:构建双路协同框架,所述双路协同框架包括视频级粗粒度伪标签生成分支和高置信度视觉元组生成分支;分别将带有基描述的视频预处理后输入双路协同框架,生成视频级粗粒度伪标签和高置信度视觉元组;将高置信度视觉元组作为细粒度视觉提示,与视频级粗粒度伪标签一同输入LLaMA大语言模型,在大语言模型的引导下完成对视频级粗粒度伪标签的增强;通过迭代自训练优化并生成最终视频描述。本发明方法,解决了现有技术中存在的少量基描述的利用未充分借助先验知识,难以充分捕捉视频结构化语义要素的细粒度差异,导致生成的视频描述出现语义偏差的问题。
技术关键词
视频
视觉
生成方法
TextRank算法
标签文本
时序特征
运动编码器
编解码
注意力
序列
前馈神经网络
语义特征
统计算法
大语言模型
解码器
分支
系统为您推荐了相关专利信息
医学图像分类方法
注意力模型
图像编码器
视觉特征
文本编码器
室内机器人
定位传感器
因子
非线性最小二乘算法
异构传感器