摘要
本发明公开了基于大规模预训练模型Whisper的深度伪造音频检测防护方法,包括步骤S1:将待检测音频输入到预训练模型Whisper,在每个音频片段的微调过程中使用整个音频的转录文本作为提示,从而使得模型Whisper能够利用全局文本信息;步骤S2:在训练和解码过程中,对音频数据进行预处理以适配模型Whisper;步骤S3:通过设计一个检测交叉熵损失功能来评估训练过程中的模型Whisper的性能。本发明公开的基于大规模预训练模型Whisper的深度伪造音频检测防护方法,通过迁移学习实现音频真伪鉴别。不同于现有语音分类或识别任务,还通过创新性的微调策略,将音频的完整转录文本作为提示信息嵌入到解码器中,跨越了传统声学特征单一依赖的问题。
技术关键词
检测防护方法
音频
预训练模型
文本
解码器
微调方法
声学特征
标记
编码器
序列
参数
数据
语音
策略
标签
注意力
定义
令牌
决策
系统为您推荐了相关专利信息
文本分析方法
AI服务器
文本段落
生成文档内容
度量
音频特征提取方法
序列
梅尔频率倒谱系数
频域特征
神经网络分类器
工艺参数优化方法
更新知识图谱
节点
断点
实体间关系