基于掩模扩散模型与注视点约束的第一视角视频生成方法及装置

AITNT
正文
推荐专利
基于掩模扩散模型与注视点约束的第一视角视频生成方法及装置
申请号:CN202510563430
申请日期:2025-04-30
公开号:CN120281990A
公开日期:2025-07-08
类型:发明专利
摘要
本发明公开了一种基于掩模扩散模型与注视点约束的第一视角视频生成方法及装置,针对第一视角视频生成中的视频填充、预测与视觉关注区域控制的需求,构建了端到端的深度学习框架,实现了多元化且符合视觉逻辑的第一视角视频生成。该方法首先将输入视频划分为条件帧集合和未知帧集合,利用动态掩模模块I对未知帧添加随机噪声生成噪声化帧;再通过全3D卷积神经网络模块II对视频进行逆向去噪生成,结合扩散步和注视点轨迹作为条件约束,引导网络生成符合时空规律的视频内容;最后,使用注视点定位模块III进行显著性预测;通过联合优化逆向去噪生成过程的损失与注视点概率图的损失,从而进一步提高生成视频的合理性与多样性。本发明通过掩模扩散策略与注视点约束的联合优化,能够有效提升生成视频的时空连贯性、抗噪能力和对注视点轨迹的适应性,尤其适用于复杂多人脸表情交互场景。
技术关键词
注视点 卷积神经网络模块 视频生成方法 动态掩模 残差模块 视角 视频帧 随机采样方法 编码器 定位模块 生成噪声 解码器结构 视频生成模型 随机噪声 视频生成装置 深度特征提取
系统为您推荐了相关专利信息
1
一种基于眼部追踪及增强现实技术的安防救援方法
救援方法 眼球 现实技术 修正迭代次数 图像
2
视频生成方法及相关设备
图像 视频生成模型 视频生成方法 对象 视频帧
3
基于大模型的家居客控方法、系统及存储介质
家居设备 模型压缩 指令 参数调节模块 注视点
4
一种风险扰动下的多尺度跨模态数据增强方法及系统
跨模态数据 时空耦合关系 动态贝叶斯网络 模态特征 多时空尺度
5
利用CNN与YOLOv4进行间接噪声估计的极化码图像信号解码方法
图像信号解码方法 残差模块 卷积模块 空间金字塔池化 噪声抑制
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号