基于掩模扩散模型与注视点约束的第一视角视频生成方法及装置

正文

推荐专利

申请号：CN202510563430

申请日期：2025-04-30

公开号：CN120281990A

公开日期：2025-07-08

类型：发明专利

摘要

本发明公开了一种基于掩模扩散模型与注视点约束的第一视角视频生成方法及装置，针对第一视角视频生成中的视频填充、预测与视觉关注区域控制的需求，构建了端到端的深度学习框架，实现了多元化且符合视觉逻辑的第一视角视频生成。该方法首先将输入视频划分为条件帧集合和未知帧集合，利用动态掩模模块I对未知帧添加随机噪声生成噪声化帧；再通过全3D卷积神经网络模块II对视频进行逆向去噪生成，结合扩散步和注视点轨迹作为条件约束，引导网络生成符合时空规律的视频内容；最后，使用注视点定位模块III进行显著性预测；通过联合优化逆向去噪生成过程的损失与注视点概率图的损失，从而进一步提高生成视频的合理性与多样性。本发明通过掩模扩散策略与注视点约束的联合优化，能够有效提升生成视频的时空连贯性、抗噪能力和对注视点轨迹的适应性，尤其适用于复杂多人脸表情交互场景。

技术关键词

注视点卷积神经网络模块视频生成方法动态掩模残差模块视角视频帧随机采样方法编码器定位模块生成噪声解码器结构视频生成模型随机噪声视频生成装置深度特征提取

系统为您推荐了相关专利信息

一种基于眼部追踪及增强现实技术的安防救援方法

救援方法眼球现实技术修正迭代次数图像

视频生成方法及相关设备

图像视频生成模型视频生成方法对象视频帧

基于大模型的家居客控方法、系统及存储介质

家居设备模型压缩指令参数调节模块注视点

一种风险扰动下的多尺度跨模态数据增强方法及系统

跨模态数据时空耦合关系动态贝叶斯网络模态特征多时空尺度

利用CNN与YOLOv4进行间接噪声估计的极化码图像信号解码方法

图像信号解码方法残差模块卷积模块空间金字塔池化噪声抑制

基于掩模扩散模型与注视点约束的第一视角视频生成方法及装置

站点导航

APP 下载