摘要
本发明提供了一种多模态音乐驱动与频域‑空间双流分解的舞蹈视频生成方法,通过复合编码器(Librosa+Jukebox)提取多粒度音乐特征,并使用节拍门控注意力机制,使舞蹈抬手、踢腿等关键动作严格对齐音乐重拍点,经测试数据集验证,同步误差降低至118ms;针对视觉细节丢失问题,提出频域‑空间双流分解架构,利用Butterworth滤波器组将参考图像解耦为低频能量图与高频残差,双流扩散机制分别优化全局姿态与局部细节;针对遮挡场景下的生成稳定性,引入关节置信度预测模块,通过时域滑动窗口加权融合策略,动态修正异常关节点的运动轨迹,使得在50%肢体遮挡率下仍能生成符合人体工学的合理动作。
技术关键词
拉普拉斯金字塔
视频生成方法
多模态
高层语义特征
音乐
序列
跨模态
局部纹理特征
时序
视觉特征
身体
短时傅里叶变换
多头注意力机制
离散小波变换
网络
分辨率提升
系统为您推荐了相关专利信息
无人机巡检设备
深度学习分类模型
模态特征
识别方法
识别无人机
地物要素
遥感影像特征
自然资源
地物特征
指标关联方法
康复训练系统
多模态传感器
上肢
下肢
接收运动数据
智能诊断方法
储能电站
智能告警
电池单体
更新知识图谱
虚拟拍摄系统
摄像机
动态物体
RNN模型
动态场景感知