摘要
本发明公开了一种基于多分片的录音合成方法及系统;本发明涉及语音合成技术领域;步骤S1,音频可视化:将多分片音频的多个录音片段的总的音频信号转换为音频图像AI,例如声谱图或梅尔频率倒谱系数图,并将音频图像AI作为YOLOv3算法的输入。步骤S2,特征提取:使用YOLOv3算法对转换后的音频图像AI进行特征提取;提取的特征包括与音频波形w和节奏模式r;本发明通过使用Darknet‑53深度卷积神经网络对音频特征进行非线性变换和卷积操作,该方案能够提取更高层次的音频特征,从而更准确地判断音频片段的同步状态。在合成多分片音频时,各个片段在时间和节奏上的同步更加精确,减少了不同步带来的音质问题。
技术关键词
YOLOv3算法
深度卷积神经网络
分片
时间偏移量
音频特征
参数
图像
高层次
全局平均池化
矩阵
声谱
处理器
非线性
波形
动态地
模式
存储器
元素
系统为您推荐了相关专利信息
特征提取单元
识别方法
模式识别
识别设备
情绪识别模型
相位检测自动对焦
音频特征
连续自动对焦
策略
图像处理
深度卷积神经网络
生成图像识别模型
图片分类方法
评估算法
训练集
多探头
线缆收纳装置
定位方法
传送机构
采集电路