一种基于语音模型的角色感知实时语音转文本方法及系统

AITNT
正文
推荐专利
一种基于语音模型的角色感知实时语音转文本方法及系统
申请号:CN202510276680
申请日期:2025-03-10
公开号:CN120126512A
公开日期:2025-06-10
类型:发明专利
摘要
本发明公开了一种基于语音模型的角色感知实时语音转文本方法、系统、设备、存储介质及程序,属于语音翻译技术领域。方法包括获取音频数据流并进行预处理,得到音频片段;对音频片段进行拼接,使用语音活动检测模型检测语音活动区间,生成语音活动列表;对语音活动列表中的语音活动进行语音相似度对比,识别说话人身份,并在说话人变更时切分音频,得到切分后的音频片段及说话人标签;对切分后的音频片段进行语音识别,得到音频文本;整合说话人标签及对应的音频文本,得到最终识别结果。本发明可以准确区分语音中各说话人的说话内容,提高了语音识别的准确率,减少后期处理文本的工作量,并且能够实时进行语音转文本。
技术关键词
音频 实时语音 检测语音活动 语音活动检测 文本 识别说话人 生成语音 列表 说话人身份 实时数据传输 服务端 语音翻译技术 格式化 自动语音识别 处理器 可读存储介质 标签模块
系统为您推荐了相关专利信息
1
教育专题识别方法、装置、相关设备及程序产品
标签体系 识别方法 文本 互联网 指令
2
基于多感官信息协同的虚拟现实认知训练方法及系统
虚拟现实环境 感官 认知训练方法 场景 力触觉
3
一种基于多模态遥感数据的建筑目标毁伤评估方法
毁伤评估方法 建筑 多模态 分类网络 遥感图像数据
4
基于大语言模型的申诉文本生成方法、系统、设备和介质
大语言模型 文本生成方法 表达式 文本生成系统 生成提示词
5
语音合成方法和装置、电子设备、存储介质与程序产品
情绪特征 文本编码器 编码特征 解码器 双语字幕
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号