一种基于语音模型的角色感知实时语音转文本方法及系统

正文

推荐专利

申请号：CN202510276680

申请日期：2025-03-10

公开号：CN120126512A

公开日期：2025-06-10

类型：发明专利

摘要

本发明公开了一种基于语音模型的角色感知实时语音转文本方法、系统、设备、存储介质及程序，属于语音翻译技术领域。方法包括获取音频数据流并进行预处理，得到音频片段；对音频片段进行拼接，使用语音活动检测模型检测语音活动区间，生成语音活动列表；对语音活动列表中的语音活动进行语音相似度对比，识别说话人身份，并在说话人变更时切分音频，得到切分后的音频片段及说话人标签；对切分后的音频片段进行语音识别，得到音频文本；整合说话人标签及对应的音频文本，得到最终识别结果。本发明可以准确区分语音中各说话人的说话内容，提高了语音识别的准确率，减少后期处理文本的工作量，并且能够实时进行语音转文本。

技术关键词

音频实时语音检测语音活动语音活动检测文本识别说话人生成语音列表说话人身份实时数据传输服务端语音翻译技术格式化自动语音识别处理器可读存储介质标签模块

系统为您推荐了相关专利信息

教育专题识别方法、装置、相关设备及程序产品

标签体系识别方法文本互联网指令

基于多感官信息协同的虚拟现实认知训练方法及系统

虚拟现实环境感官认知训练方法场景力触觉

一种基于多模态遥感数据的建筑目标毁伤评估方法

毁伤评估方法建筑多模态分类网络遥感图像数据

基于大语言模型的申诉文本生成方法、系统、设备和介质

大语言模型文本生成方法表达式文本生成系统生成提示词

语音合成方法和装置、电子设备、存储介质与程序产品

情绪特征文本编码器编码特征解码器双语字幕

一种基于语音模型的角色感知实时语音转文本方法及系统

站点导航

APP 下载