一种基于目标检测和语言特征的音符级自动歌唱转录方法

正文

推荐专利

申请号：CN202410790098

申请日期：2024-06-19

公开号：CN118571262B

公开日期：2025-11-21

类型：发明专利

摘要

本发明提供了一种基于目标检测和语言特征的音符级自动歌唱转录方法，包括以下步骤；步骤1：通过Mel变换、音素分类、线性强度映射和切片的预处理方法将一维音频序列转换为具有相似宽高比的二维梅尔频谱图切片和音素后验图切片；步骤2：对梅尔频谱图和音素后验图切片进行目标检测，将目标检测所得边界框左右边界进行后处理和时间调整，再经过决策筛选获得最终起始时间和结束时间；步骤3：以目标检测边界框的下边界为基频，经过峰值搜索获得最终基频，再将最终基频转换获得MIDI音高值。该方法能有效提高音素特征提取效果、提升音素后验图质量以及提升特征提取和分析效果，从而提高转录准确率。

技术关键词

转录方法切片音频序列决策图像分类器预测类别重构坐标生成算法基础结构时序特征强度频率线性数据嵌套列表

系统为您推荐了相关专利信息

用于燃煤电厂湿式球磨机的智能优化方法及系统

湿式球磨机智能优化系统分布式控制系统智能优化方法钢球

一种基于大语言模型的分割学习车联网异常检测方法及系统

大语言模型异常检测方法注意力机制异常检测系统滑动窗口

一种SIM卡切换系统及切换方法

SIM卡切换方法智能决策引擎物联网通信模块机器学习算法深度学习算法

一种基于时空双流掩码重建的微表情识别预训练方法

预训练方法注意力序列编码器训练预训练模型

一种推荐模型选择方法、装置、电子设备及程序产品

通道电子设备参数训练样本集流量预测模型

一种基于目标检测和语言特征的音符级自动歌唱转录方法

站点导航

APP 下载