摘要
本发明属于人工智能技术领域,具体涉及一种面向语音识别系统的预处理去偏方法,包括:数据采样,通过欠采样和SMOTE分别对多类数据和少类数据进行采样处理;模型训练,将原始数据、采样后的数据分别对判别器和ASR进行训练;分类识别,用训练好的判别器和ASR先进行分类,再进行识别;偏见评估,通过构建均衡公平的语音评估数据集、提出面向语音识别系统的偏见评估方法和评估指标,从而实现全面的偏见评估;对比分析,通过对比分析使用不均衡数据训练的基准ASR模型与经过去偏处理后的模型在偏见评估中的表现,评估去偏方法的有效性。本发明针对语音识别系统的特点进行设计,在数据处理、评估方法上提供了更加完善和高效的解决方案,不仅能够准确处理语音数据中的偏见问题,还能有效提升模型对不同属性群体的识别精度,从而显著提高语音识别系统在实际应用中的公平性、准确性与可信度。
技术关键词
语音识别系统
样本
数据
错误率
文本
梅尔频率倒谱系数
贪心算法
男性
人工智能系统
自动语音识别
女性
指标
过采样技术
邻居
特征提取方法
年龄
机器学习算法
人工智能技术
度量