摘要
本发明提供了一种基于目标检测和语言特征的音符级自动歌唱转录方法,包括以下步骤;步骤1:通过Mel变换、音素分类、线性强度映射和切片的预处理方法将一维音频序列转换为具有相似宽高比的二维梅尔频谱图切片和音素后验图切片;步骤2:对梅尔频谱图和音素后验图切片进行目标检测,将目标检测所得边界框左右边界进行后处理和时间调整,再经过决策筛选获得最终起始时间和结束时间;步骤3:以目标检测边界框的下边界为基频,经过峰值搜索获得最终基频,再将最终基频转换获得MIDI音高值。该方法能有效提高音素特征提取效果、提升音素后验图质量以及提升特征提取和分析效果,从而提高转录准确率。
技术关键词
转录方法
切片
音频
序列
决策
图像
分类器
预测类别
重构
坐标
生成算法
基础结构
时序特征
强度
频率
线性
数据
嵌套
列表
系统为您推荐了相关专利信息
湿式球磨机
智能优化系统
分布式控制系统
智能优化方法
钢球
大语言模型
异常检测方法
注意力机制
异常检测系统
滑动窗口
SIM卡切换方法
智能决策引擎
物联网通信模块
机器学习算法
深度学习算法