一种基于无监督数据生成精标数据的方法及系统

AITNT
正文
推荐专利
一种基于无监督数据生成精标数据的方法及系统
申请号:CN202510937140
申请日期:2025-07-08
公开号:CN120998190A
公开日期:2025-11-21
类型:发明专利
摘要
本发明公开了一种基于无监督数据生成精标数据的方法及系统,涉及文本处理以及语音识别技术领域,包括:获取短句,对短句进行质量筛选,得到高音频质量的短句;对高音频质量的短句进行说话人分类筛选,得到筛选后的单人说话短句,对单人说话短句施加随机噪声得到噪声短句;对单人说话短句和噪声短句使用语音识别工具进行识别,得到短句的对应文本以及噪声短句的对应文本;分别将单人说话短句和短句的对应文本,以及噪声短句和噪声短句的对应文本使用force‑alignment技术进行强制对齐,并获取对齐的置信度,得到筛选依据1和筛选依据2;接收音频,基于筛选依据1和筛选依据2对音频进行筛选,得到置信度高的音频。
技术关键词
无监督 音频 单人 文本 语音识别技术 识别工具 数据 随机噪声 信噪比估计方法 语音识别模块 处理器 可读存储介质 对齐模块 存储器 终端设备 计算机 语句 分段
系统为您推荐了相关专利信息
1
智能音频驱动香氛控制系统、控制方法及车载系统
香氛控制系统 音频驱动模块 香氛容器 信号特征 音乐
2
一种合规名单系统、合规名单的处理方法及设备
名单管理 实体 数据采集策略 数据采集模块 机器学习模型
3
一种音频播放方法及装置
芯片装置 音频播放方法 频率 终端设备 音频播放装置
4
虚拟声源的音频信号分配
交互式玩具 计算机 传声器 生成音频信号 扬声器阵列
5
基于AIGC的机器人情感识别方法、系统及存储介质
监督学习算法 多模态数据融合 个性化特征 样本 跨模态
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号