大语言模型引导伪标签增强的半监督视频描述生成方法

AITNT
正文
推荐专利
大语言模型引导伪标签增强的半监督视频描述生成方法
申请号:CN202511394804
申请日期:2025-09-28
公开号:CN120932159A
公开日期:2025-11-11
类型:发明专利
摘要
本发明公开了大语言模型引导伪标签增强的半监督视频描述生成方法,包括:构建双路协同框架,所述双路协同框架包括视频级粗粒度伪标签生成分支和高置信度视觉元组生成分支;分别将带有基描述的视频预处理后输入双路协同框架,生成视频级粗粒度伪标签和高置信度视觉元组;将高置信度视觉元组作为细粒度视觉提示,与视频级粗粒度伪标签一同输入LLaMA大语言模型,在大语言模型的引导下完成对视频级粗粒度伪标签的增强;通过迭代自训练优化并生成最终视频描述。本发明方法,解决了现有技术中存在的少量基描述的利用未充分借助先验知识,难以充分捕捉视频结构化语义要素的细粒度差异,导致生成的视频描述出现语义偏差的问题。
技术关键词
视频 视觉 生成方法 TextRank算法 标签文本 时序特征 运动编码器 编解码 注意力 序列 前馈神经网络 语义特征 统计算法 大语言模型 解码器 分支
系统为您推荐了相关专利信息
1
一种基于提示反向学习的医学图像分类方法、装置及介质
医学图像分类方法 注意力模型 图像编码器 视觉特征 文本编码器
2
一种钢棒加工方法
钢棒 剪切机构 送检车 弧焊器 剪切系统
3
行人重识别模型的训练方法、装置、电子设备及存储介质
行人重识别模型 图像 识别行人 学生 教师
4
用于室内机器人的异构传感器数据融合定位方法及系统
室内机器人 定位传感器 因子 非线性最小二乘算法 异构传感器
5
基于卫星系统的视频通话方法及相关设备
视频通话方法 卫星系统 接收端 音频 频率
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号