基于多模态音乐驱动与频域-空间双流分解的舞蹈视频生成方法

正文

推荐专利

申请号：CN202510387352

申请日期：2025-03-31

公开号：CN120238708A

公开日期：2025-07-01

类型：发明专利

摘要

本发明提供了一种多模态音乐驱动与频域‑空间双流分解的舞蹈视频生成方法，通过复合编码器(Librosa+Jukebox)提取多粒度音乐特征，并使用节拍门控注意力机制，使舞蹈抬手、踢腿等关键动作严格对齐音乐重拍点，经测试数据集验证，同步误差降低至118ms；针对视觉细节丢失问题，提出频域‑空间双流分解架构，利用Butterworth滤波器组将参考图像解耦为低频能量图与高频残差，双流扩散机制分别优化全局姿态与局部细节；针对遮挡场景下的生成稳定性，引入关节置信度预测模块，通过时域滑动窗口加权融合策略，动态修正异常关节点的运动轨迹，使得在50％肢体遮挡率下仍能生成符合人体工学的合理动作。

技术关键词

拉普拉斯金字塔视频生成方法多模态高层语义特征音乐序列跨模态局部纹理特征时序视觉特征身体短时傅里叶变换多头注意力机制离散小波变换网络分辨率提升

系统为您推荐了相关专利信息

一种基于多模态设备指纹的无人机巡检设备识别方法和系统

无人机巡检设备深度学习分类模型模态特征识别方法识别无人机

基于AI辅助的自然资源要素跨图层指标关联方法及系统

地物要素遥感影像特征自然资源地物特征指标关联方法

基于多模态传感的上肢下肢协同康复训练系统

康复训练系统多模态传感器上肢下肢接收运动数据

多级告警处理与知识库联动的储能电站智能诊断方法

智能诊断方法储能电站智能告警电池单体更新知识图谱

智能虚拟拍摄系统

虚拟拍摄系统摄像机动态物体 RNN模型动态场景感知

基于多模态音乐驱动与频域-空间双流分解的舞蹈视频生成方法

站点导航

APP 下载