一种基于目标检测和语言特征的音符级自动歌唱转录方法

AITNT
正文
推荐专利
一种基于目标检测和语言特征的音符级自动歌唱转录方法
申请号:CN202410790098
申请日期:2024-06-19
公开号:CN118571262B
公开日期:2025-11-21
类型:发明专利
摘要
本发明提供了一种基于目标检测和语言特征的音符级自动歌唱转录方法,包括以下步骤;步骤1:通过Mel变换、音素分类、线性强度映射和切片的预处理方法将一维音频序列转换为具有相似宽高比的二维梅尔频谱图切片和音素后验图切片;步骤2:对梅尔频谱图和音素后验图切片进行目标检测,将目标检测所得边界框左右边界进行后处理和时间调整,再经过决策筛选获得最终起始时间和结束时间;步骤3:以目标检测边界框的下边界为基频,经过峰值搜索获得最终基频,再将最终基频转换获得MIDI音高值。该方法能有效提高音素特征提取效果、提升音素后验图质量以及提升特征提取和分析效果,从而提高转录准确率。
技术关键词
转录方法 切片 音频 序列 决策 图像 分类器 预测类别 重构 坐标 生成算法 基础结构 时序特征 强度 频率 线性 数据 嵌套 列表
系统为您推荐了相关专利信息
1
用于燃煤电厂湿式球磨机的智能优化方法及系统
湿式球磨机 智能优化系统 分布式控制系统 智能优化方法 钢球
2
一种基于大语言模型的分割学习车联网异常检测方法及系统
大语言模型 异常检测方法 注意力机制 异常检测系统 滑动窗口
3
一种SIM卡切换系统及切换方法
SIM卡切换方法 智能决策引擎 物联网通信模块 机器学习算法 深度学习算法
4
一种基于时空双流掩码重建的微表情识别预训练方法
预训练方法 注意力 序列 编码器训练 预训练模型
5
一种推荐模型选择方法、装置、电子设备及程序产品
通道 电子设备 参数 训练样本集 流量预测模型
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号