摘要
本发明涉及图像帧处理技术领域,且公开了一种视频的图像帧处理方法及系统,其中的视频的图像帧处理方法包括如下步骤:S1、视频输入:输入视频某一帧,形成图片;S2、低频特征提取:采用全局特征提取器获取图片富含低频信息的特征,形成图片低频特征;S3、特征拼接:采用视频VAE提取潜在空间特征,和视频的带噪音的特征以及文本特征拼接在一起,送入DiT模型中;S4、高频特征提取:采用预训练大模型提取图片物体特征,然后经过MLp层特征学习,形成图片高频特征;S5、高频特征注入;S6、视频生成。本发明设计合理,通过把图片里的高频信息和低频信息分别注入模型的对应位置,以提高生成视频里的物体一致性。
技术关键词
高频特征
全局特征提取
视频
图片
特征提取模块
注意力
人脸特征
物体特征提取
图像处理技术
人脸识别模型
模型训练模块
关键点
拼接模块
文本
融合特征
输入模块
轮廓
系统为您推荐了相关专利信息
影像获取模块
三维建模方法
三维模型
作业现场
分析模块
降水预报方法
空间模块
雷达回波数据
空间特征信息
卷积模块
反射率数据
镀膜机
预测误差
可视化看板
石英晶体传感器