一种基于多分片的录音合成方法及系统

AITNT
正文
推荐专利
一种基于多分片的录音合成方法及系统
申请号:CN202411099419
申请日期:2024-08-12
公开号:CN118968963A
公开日期:2024-11-15
类型:发明专利
摘要
本发明公开了一种基于多分片的录音合成方法及系统;本发明涉及语音合成技术领域;步骤S1,音频可视化:将多分片音频的多个录音片段的总的音频信号转换为音频图像AI,例如声谱图或梅尔频率倒谱系数图,并将音频图像AI作为YOLOv3算法的输入。步骤S2,特征提取:使用YOLOv3算法对转换后的音频图像AI进行特征提取;提取的特征包括与音频波形w和节奏模式r;本发明通过使用Darknet‑53深度卷积神经网络对音频特征进行非线性变换和卷积操作,该方案能够提取更高层次的音频特征,从而更准确地判断音频片段的同步状态。在合成多分片音频时,各个片段在时间和节奏上的同步更加精确,减少了不同步带来的音质问题。
技术关键词
YOLOv3算法 深度卷积神经网络 分片 时间偏移量 音频特征 参数 图像 高层次 全局平均池化 矩阵 声谱 处理器 非线性 波形 动态地 模式 存储器 元素
系统为您推荐了相关专利信息
1
一种情感交流模式的识别设备及识别方法
特征提取单元 识别方法 模式识别 识别设备 情绪识别模型
2
一种用于信息娱乐系统的流程管理方法及管理平台
文件断点续传 标志位 信息娱乐系统 分片 文件夹
3
处理方法及电子设备
相位检测自动对焦 音频特征 连续自动对焦 策略 图像处理
4
一种图片分类方法、装置、介质及设备
深度卷积神经网络 生成图像识别模型 图片分类方法 评估算法 训练集
5
一种基于分布式多探头的井下岩壁断裂定位系统及方法
多探头 线缆收纳装置 定位方法 传送机构 采集电路
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号