摘要
本发明公开了一种基于双路径Transformer的音频真伪鉴别方法及装置,方法包括以下步骤:预处理:将原始音频信号转换为时频表示,通过LFCC或STFT提取特征得到音频信号的时域特征和频域特征;经过预处理,得到包含时域特征和频域特征时频表示feature={B,F,T},其中B是批量大小,F是频率通道数等于LFCC线性滤波器个数,T是时间帧数;卷积编码器:通过多个2D卷积层对输入的时频表示进行编码,提取局部特征;通过双路径Transformer结构分别处理频域和时域信息,形成语义‑声学信息解耦。通过双路径Transformer结构分别处理频域和时域信息,并结合注意力机制,实现语义信息和声学信息的高效解耦,从而更好地提取和利用不同层面的音频信息。
技术关键词
真伪鉴别方法
音频
注意力机制
卷积编码器
卷积解码器
时域特征
频域特征
线性滤波器
语义
真伪鉴别装置
信号
频率
索引
离散余弦变换
序列
批量
系统为您推荐了相关专利信息
深度图
飞机辅助动力装置
管路三维重建方法
多视角
监督学习技术
深度学习模型
过敏原检测方法
烹饪设备
序列
样本
信息管理方法
无人机
信息管理系统
通道注意力机制
影像
深度学习网络模型
报文
计算机程序指令
数据
信号