摘要
本发明公开了一种基于语音模型的角色感知实时语音转文本方法、系统、设备、存储介质及程序,属于语音翻译技术领域。方法包括获取音频数据流并进行预处理,得到音频片段;对音频片段进行拼接,使用语音活动检测模型检测语音活动区间,生成语音活动列表;对语音活动列表中的语音活动进行语音相似度对比,识别说话人身份,并在说话人变更时切分音频,得到切分后的音频片段及说话人标签;对切分后的音频片段进行语音识别,得到音频文本;整合说话人标签及对应的音频文本,得到最终识别结果。本发明可以准确区分语音中各说话人的说话内容,提高了语音识别的准确率,减少后期处理文本的工作量,并且能够实时进行语音转文本。
技术关键词
音频
实时语音
检测语音活动
语音活动检测
文本
识别说话人
生成语音
列表
说话人身份
实时数据传输
服务端
语音翻译技术
格式化
自动语音识别
处理器
可读存储介质
标签模块
系统为您推荐了相关专利信息
毁伤评估方法
建筑
多模态
分类网络
遥感图像数据
大语言模型
文本生成方法
表达式
文本生成系统
生成提示词