摘要
本发明提供了一种基于网络模型的直播人声音调自适应调整方法,涉及音频信号处理技术领域,其通过短时能量函数的突变点和过零率的异常变化点确定丢包的精确起始位置和结束位置,从而针对性的利用基频轨迹特征和共振峰特征对丢包区间修复。本发明中的方法可以解决传统语音修复方法在高丢包率场景中因声学参数解耦修复与实时处理约束的矛盾,导致基频轨迹断裂和语音不自然的问题,从而实现丢包语音的高精度、低延时自适应修复,显著提高直播场景下声音质量与用户体验。
技术关键词
轨迹特征
频谱特征
三次样条插值
轮廓特征
网络
音频信号处理技术
包络
OTSU算法
线性预测系数
皮尔逊相关系数
动态规划算法
滑动窗口
连续性
分布直方图
谐波结构
序列
参数
非线性
系统为您推荐了相关专利信息
特征提取算法
联合损失函数
权重分配策略
双分支卷积神经网络
可见光图像
生物特征信息
身份验证系统
信息比
图谱
身份验证方法
混合卷积神经网络
剂量预测方法
生成距离图像
编码器
解码器