基于大规模预训练模型Whisper的深度伪造音频检测防护方法

AITNT
正文
推荐专利
基于大规模预训练模型Whisper的深度伪造音频检测防护方法
申请号:CN202510297989
申请日期:2025-03-13
公开号:CN120126481B
公开日期:2025-09-30
类型:发明专利
摘要
本发明公开了基于大规模预训练模型Whisper的深度伪造音频检测防护方法,包括步骤S1:将待检测音频输入到预训练模型Whisper,在每个音频片段的微调过程中使用整个音频的转录文本作为提示,从而使得模型Whisper能够利用全局文本信息;步骤S2:在训练和解码过程中,对音频数据进行预处理以适配模型Whisper;步骤S3:通过设计一个检测交叉熵损失功能来评估训练过程中的模型Whisper的性能。本发明公开的基于大规模预训练模型Whisper的深度伪造音频检测防护方法,通过迁移学习实现音频真伪鉴别。不同于现有语音分类或识别任务,还通过创新性的微调策略,将音频的完整转录文本作为提示信息嵌入到解码器中,跨越了传统声学特征单一依赖的问题。
技术关键词
检测防护方法 音频 预训练模型 文本 解码器 微调方法 声学特征 标记 编码器 序列 参数 数据 语音 策略 标签 注意力 定义 令牌 决策
系统为您推荐了相关专利信息
1
一种基于大模型的两阶段电子合同要素提取方法
文本 语义 预训练语言模型 模块 关键词
2
一种智能卡版面生成方法、装置、存储介质及计算机设备
版面生成方法 文本 大语言模型 主题关键词 计算机可读指令
3
一种基于深度库普曼算子的飞机轨迹预报方法
轨迹预报方法 飞机 编码器 变分算法 网络
4
一种利用虚拟现实技术的儿童音乐沉浸式学习系统
儿童音乐 虚拟现实技术 学习系统 触感反馈功能 虚拟现实环境
5
一种搭载多模态模型的智慧城市感知图像处理系统及方法
图像处理系统 特征提取模块 视觉特征编码 网络结构 多模态
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号