摘要
本申请提供一种音频修复方法、系统、介质和设备,包括:获取目标待处理音频;利用预训练多模态模型的文本编码器提取目标待处理音频对应的语义向量;通过跨模态适配层将语义向量映射至音频特征空间,生成目标声源的参考音频令牌;调用条件分离网络对齐混合音频与参考音频令牌,输出目标待处理音频的初步分离信号;定位初步分离信号的无效信号片段,将无效信号片段输入至设定生成式模型,输出得到高保真音频补丁;高保真音频补丁用于修复目标待处理音频。本申请能够精准地捕捉音频中的语义信息,通过参考音频令牌高效地对混合音频进行分析和分离,能够有效解决音频修复中的细节缺失问题,更好地填补无效信号片段。
技术关键词
音频修复方法
语义向量
文本编码器
令牌
多模态
音频特征
信号
补丁
跨模态
网络
短时傅里叶变换
采样率
可读存储介质
存储计算机程序
多层感知机
修复系统
信噪比
系统为您推荐了相关专利信息
图像篡改检测
频域压缩感知
多尺度感知网络
篡改检测方法
视觉
场景文本图像
布局驱动
字符
训练集
场景文本检测
辅助生殖技术
时间序列预测模型
长短期记忆网络
互联网医院平台
患者
道路病害
实例分割算法
多模态
协同优化方法
深度学习方法