摘要
本发明提供一种基于多模态融合的古琴演奏动作与音频同步分析方法,属于古琴演奏分析技术领域,其可至少部分解决现有的古琴教学、表演与数字化中依赖单一模态分析,仅音频或仅视频,难以全面捕捉演奏细节,在特征提取与融合方面,无法充分挖掘不同模态特征之间的复杂关联关系的问题。本发明包括以下步骤:通过计算机视觉技术分析古琴演奏视频;采用三级融合策略,在数据层将视觉帧和音频频谱结合。本发明的一个技术效果在于,通过多模态融合,结合视觉与音频数据,实现了更全面的演奏分析。同时,针对现有技术中固定阈值判断同步性的不足,引入自适应阈值调整,根据演奏特征动态优化判断标准,提高了同步性判断的准确性和适应性。
技术关键词
同步分析方法
动作特征
短时傅里叶变换
古琴
同步性
计算机视觉技术
频谱特征
多模态
视觉特征
注意力机制
音色特征
偏差
融合策略
动态时间弯曲
滑动窗口技术
音频特征提取