基于大规模预训练模型Whisper的深度伪造音频检测防护方法

AITNT
正文
推荐专利
基于大规模预训练模型Whisper的深度伪造音频检测防护方法
申请号:CN202510297989
申请日期:2025-03-13
公开号:CN120126481B
公开日期:2025-09-30
类型:发明专利
摘要
本发明公开了基于大规模预训练模型Whisper的深度伪造音频检测防护方法,包括步骤S1:将待检测音频输入到预训练模型Whisper,在每个音频片段的微调过程中使用整个音频的转录文本作为提示,从而使得模型Whisper能够利用全局文本信息;步骤S2:在训练和解码过程中,对音频数据进行预处理以适配模型Whisper;步骤S3:通过设计一个检测交叉熵损失功能来评估训练过程中的模型Whisper的性能。本发明公开的基于大规模预训练模型Whisper的深度伪造音频检测防护方法,通过迁移学习实现音频真伪鉴别。不同于现有语音分类或识别任务,还通过创新性的微调策略,将音频的完整转录文本作为提示信息嵌入到解码器中,跨越了传统声学特征单一依赖的问题。
技术关键词
检测防护方法 音频 预训练模型 文本 解码器 微调方法 声学特征 标记 编码器 序列 参数 数据 语音 策略 标签 注意力 定义 令牌 决策
系统为您推荐了相关专利信息
1
一种基于AI向量化和特征提取的智能文本分析方法
文本分析方法 AI服务器 文本段落 生成文档内容 度量
2
基于神经网络的音频特征提取方法及装置
音频特征提取方法 序列 梅尔频率倒谱系数 频域特征 神经网络分类器
3
基于随机森林的符号音乐生成方法、装置、设备及介质
随机森林模型 音乐生成方法 符号 风格 样本
4
基于知识图谱的制造业工艺参数优化方法
工艺参数优化方法 更新知识图谱 节点 断点 实体间关系
5
一种基于扩散模型的精细可控图像风格化方法
图像风格化方法 注意力 颜色 文本 噪声
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号