摘要
本发明提供了一种结合副语言信息的有害语音检测方法,包括:收集多源语音样本,利用多模态模型对多源语音数据进行初步筛选和自动标注,得到初步标注样本;基于初步标注样本进行人工标注与数据整编,得到高质量标注数据集,对高质量标注数据集进行音频统一预处理,得到标准化输入;基于标准化输入,提取自监督高维特征、构建双任务模型拓扑,以进行音频识别;针对双任务模型拓扑,进行来源、类别以及联合能力训练,得到联合优化模型,以输出待检测音频的有害信息来源标签和类型标签。本发明能够通过高质量多维度数据支撑以及来源和类别双重判定,兼顾文本有害场景的最优性能,显著提升副语言有害检测能力。
技术关键词
双任务模型
语音检测方法
样本
音频
类别平衡采样
数据
多标签分类器
训练集
语音语料库
多类分类器
多模态
文本
大语言模型
语音编码
风格
语义
波形