摘要
本发明公开了基于大规模预训练模型Whisper的深度伪造音频检测防护方法,包括步骤S1:将待检测音频输入到预训练模型Whisper,在每个音频片段的微调过程中使用整个音频的转录文本作为提示,从而使得模型Whisper能够利用全局文本信息;步骤S2:在训练和解码过程中,对音频数据进行预处理以适配模型Whisper;步骤S3:通过设计一个检测交叉熵损失功能来评估训练过程中的模型Whisper的性能。本发明公开的基于大规模预训练模型Whisper的深度伪造音频检测防护方法,通过迁移学习实现音频真伪鉴别。不同于现有语音分类或识别任务,还通过创新性的微调策略,将音频的完整转录文本作为提示信息嵌入到解码器中,跨越了传统声学特征单一依赖的问题。
技术关键词
检测防护方法
音频
预训练模型
文本
解码器
微调方法
声学特征
标记
编码器
序列
参数
数据
语音
策略
标签
注意力
定义
令牌
决策
系统为您推荐了相关专利信息
版面生成方法
文本
大语言模型
主题关键词
计算机可读指令
儿童音乐
虚拟现实技术
学习系统
触感反馈功能
虚拟现实环境
图像处理系统
特征提取模块
视觉特征编码
网络结构
多模态