一种基于无监督数据生成精标数据的方法及系统

正文

推荐专利

申请号：CN202510937140

申请日期：2025-07-08

公开号：CN120998190A

公开日期：2025-11-21

类型：发明专利

摘要

本发明公开了一种基于无监督数据生成精标数据的方法及系统，涉及文本处理以及语音识别技术领域，包括：获取短句，对短句进行质量筛选，得到高音频质量的短句；对高音频质量的短句进行说话人分类筛选，得到筛选后的单人说话短句，对单人说话短句施加随机噪声得到噪声短句；对单人说话短句和噪声短句使用语音识别工具进行识别，得到短句的对应文本以及噪声短句的对应文本；分别将单人说话短句和短句的对应文本，以及噪声短句和噪声短句的对应文本使用force‑alignment技术进行强制对齐，并获取对齐的置信度，得到筛选依据1和筛选依据2；接收音频，基于筛选依据1和筛选依据2对音频进行筛选，得到置信度高的音频。

技术关键词

无监督音频单人文本语音识别技术识别工具数据随机噪声信噪比估计方法语音识别模块处理器可读存储介质对齐模块存储器终端设备计算机语句分段

系统为您推荐了相关专利信息

智能音频驱动香氛控制系统、控制方法及车载系统

香氛控制系统音频驱动模块香氛容器信号特征音乐

一种合规名单系统、合规名单的处理方法及设备

名单管理实体数据采集策略数据采集模块机器学习模型

一种音频播放方法及装置

芯片装置音频播放方法频率终端设备音频播放装置

虚拟声源的音频信号分配

交互式玩具计算机传声器生成音频信号扬声器阵列

基于AIGC的机器人情感识别方法、系统及存储介质

监督学习算法多模态数据融合个性化特征样本跨模态

一种基于无监督数据生成精标数据的方法及系统

站点导航

APP 下载