摘要
本发明公开了一种结合生成大模型的视频修复数据集构建及修复方法,属于视频修复技术领域,其包括以下步骤:S1、切片;S2、筛选:对切片进行美学评分和运动检测,筛选保留高动态、高画质片段;S3、核心物体分割;S4、提取文本特征;S5、模型输入;S6、特征融合;S7、模型训练:仅训练交叉注意力层参数,锁定其他层梯度以降低计算成本;S8、损失函数计算;S9、视频输入:输入待修复视频,生成其物体Mask及文本描述;S10、修复视频输出:将Mask视频、物体Mask及文本描述输入改进后的生成大模型,输出修复后视频。本发明的分阶段特征注入策略,兼顾全局自然性与局部真实感,显著提升修复内容与原始视频的视觉一致性。
技术关键词
修复方法
物体
交叉注意力机制
随机噪声
视频修复技术
切片
运动检测
优化器
文本生成模型
美学
高维特征向量
双线性插值法
输出特征
深度学习框架
数据
文本编码器
参数
系统为您推荐了相关专利信息
图像特征向量
图像编码器
文本特征向量
文本编码器
行人检索方法