摘要
本公开提供了一种机器学习特征数据处理方法及相关设备,涉及人工智能技术领域。该方法包括:获取多个用户针对开放式口语评测题型输入的原始语音数据;从原始语音数据中提取包含第一数量维度语音特征的第一语音特征数据;根据每个维度的语音特征与口语评测结果之间的相关度,从第一语音特征数据中筛选出包含第二数量维度语音特征的第二语音特征数据,第二数量维度小于第一数量维度;根据第二语音特征数据构建多个语音特征集,采用包裹法从多个语音特征集中筛选出包含第三数量维度语音特征的语音特征集作为自定义语音特征集,以对口语评测模型进行机器学习。本公开能优化训练口语评测模型的特征数据,使训练后的模型在性能和效率方面都大幅提升。
技术关键词
语音特征数据
机器学习特征
自定义语音
数据处理方法
LightGBM模型
语音识别系统
梯度提升机
语音特征提取
发音词典
发音特征
处理器
数据处理装置
人工智能技术
数据获取模块
计算机程序产品
包裹