摘要
本发明公开了一种基于掩模扩散模型与注视点约束的第一视角视频生成方法及装置,针对第一视角视频生成中的视频填充、预测与视觉关注区域控制的需求,构建了端到端的深度学习框架,实现了多元化且符合视觉逻辑的第一视角视频生成。该方法首先将输入视频划分为条件帧集合和未知帧集合,利用动态掩模模块I对未知帧添加随机噪声生成噪声化帧;再通过全3D卷积神经网络模块II对视频进行逆向去噪生成,结合扩散步和注视点轨迹作为条件约束,引导网络生成符合时空规律的视频内容;最后,使用注视点定位模块III进行显著性预测;通过联合优化逆向去噪生成过程的损失与注视点概率图的损失,从而进一步提高生成视频的合理性与多样性。本发明通过掩模扩散策略与注视点约束的联合优化,能够有效提升生成视频的时空连贯性、抗噪能力和对注视点轨迹的适应性,尤其适用于复杂多人脸表情交互场景。
技术关键词
注视点
卷积神经网络模块
视频生成方法
动态掩模
残差模块
视角
视频帧
随机采样方法
编码器
定位模块
生成噪声
解码器结构
视频生成模型
随机噪声
视频生成装置
深度特征提取
系统为您推荐了相关专利信息
跨模态数据
时空耦合关系
动态贝叶斯网络
模态特征
多时空尺度
图像信号解码方法
残差模块
卷积模块
空间金字塔池化
噪声抑制