摘要
本发明公开了一种基于帧间相似度的伪造语音片段定位方法,涉及人工智能安全领域,包括:构建上下文感知特征提取网络,生成语音信号的高维特征表示;设计嵌入相似度模块,通过计算帧间余弦相似度分离真实帧与伪造帧,定义由真实帧相似性损失、伪造帧相似性损失和真实‑伪造差异损失组成的相似度损失;引入时间卷积操作,结合动态注意力机制生成局部权重掩码;通过双层卷积神经网络与全连接层进行帧级二分类,定义分类损失;基于相似度损失和分类损失设计联合优化目标函数,通过最小化联合优化目标函数进行模型训练,利用训练好的模型确定伪造语音片段的位置。本发明可以实现对伪造语音片段的高精度细粒度定位,提升复杂噪声环境下的检测稳定性。
技术关键词
定位方法
双层卷积神经网络
生成语音信号
特征提取网络
邻域特征
感知特征
语音特征
注意力机制
阈值分割算法
定义
输入多尺度
生成多尺度
全局平均池化
后处理模块
标签
噪声
预训练模型
系统为您推荐了相关专利信息
芯片
非瞬时性计算机可读存储介质
掩膜
热力图
批量
检测模型训练方法
判别模块
特征融合网络
融合特征
Sigmoid函数
空间定位方法
监测设备
误差函数
火箭
变色龙算法
序列
模态特征
雷电防护系统
分层强化学习
核主成分分析