一种结合副语言信息的有害语音检测方法

正文

推荐专利

一种结合副语言信息的有害语音检测方法

申请号：CN202511500469

申请日期：2025-10-21

公开号：CN120998231A

公开日期：2025-11-21

类型：发明专利

摘要

本发明提供了一种结合副语言信息的有害语音检测方法，包括：收集多源语音样本，利用多模态模型对多源语音数据进行初步筛选和自动标注，得到初步标注样本；基于初步标注样本进行人工标注与数据整编，得到高质量标注数据集，对高质量标注数据集进行音频统一预处理，得到标准化输入；基于标准化输入，提取自监督高维特征、构建双任务模型拓扑，以进行音频识别；针对双任务模型拓扑，进行来源、类别以及联合能力训练，得到联合优化模型，以输出待检测音频的有害信息来源标签和类型标签。本发明能够通过高质量多维度数据支撑以及来源和类别双重判定，兼顾文本有害场景的最优性能，显著提升副语言有害检测能力。

技术关键词

双任务模型语音检测方法样本音频类别平衡采样数据多标签分类器训练集语音语料库多类分类器多模态文本大语言模型语音编码风格语义波形

一种结合副语言信息的有害语音检测方法

站点导航

APP 下载