基于多模态音乐驱动与频域-空间双流分解的舞蹈视频生成方法

AITNT
正文
推荐专利
基于多模态音乐驱动与频域-空间双流分解的舞蹈视频生成方法
申请号:CN202510387352
申请日期:2025-03-31
公开号:CN120238708A
公开日期:2025-07-01
类型:发明专利
摘要
本发明提供了一种多模态音乐驱动与频域‑空间双流分解的舞蹈视频生成方法,通过复合编码器(Librosa+Jukebox)提取多粒度音乐特征,并使用节拍门控注意力机制,使舞蹈抬手、踢腿等关键动作严格对齐音乐重拍点,经测试数据集验证,同步误差降低至118ms;针对视觉细节丢失问题,提出频域‑空间双流分解架构,利用Butterworth滤波器组将参考图像解耦为低频能量图与高频残差,双流扩散机制分别优化全局姿态与局部细节;针对遮挡场景下的生成稳定性,引入关节置信度预测模块,通过时域滑动窗口加权融合策略,动态修正异常关节点的运动轨迹,使得在50%肢体遮挡率下仍能生成符合人体工学的合理动作。
技术关键词
拉普拉斯金字塔 视频生成方法 多模态 高层语义特征 音乐 序列 跨模态 局部纹理特征 时序 视觉特征 身体 短时傅里叶变换 多头注意力机制 离散小波变换 网络 分辨率提升
系统为您推荐了相关专利信息
1
一种基于多模态设备指纹的无人机巡检设备识别方法和系统
无人机巡检设备 深度学习分类模型 模态特征 识别方法 识别无人机
2
基于AI辅助的自然资源要素跨图层指标关联方法及系统
地物要素 遥感影像特征 自然资源 地物特征 指标关联方法
3
基于多模态传感的上肢下肢协同康复训练系统
康复训练系统 多模态传感器 上肢 下肢 接收运动数据
4
多级告警处理与知识库联动的储能电站智能诊断方法
智能诊断方法 储能电站 智能告警 电池单体 更新知识图谱
5
智能虚拟拍摄系统
虚拟拍摄系统 摄像机 动态物体 RNN模型 动态场景感知
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号