摘要
本发明公开了一种基于单声道人工智能模型的多声道通话录音识别方法,包括:输入多声道通话音频数据;针对每个声道进行语音活动检测,以获取每个声道中的语音片段以及检测时对应的原始时间戳;基于原始时间戳的先后顺序对原始时间戳进行排序,构建一条单声道音频并记录合成时间戳;将构建获得的单声道音频输入至预训练的单声道语音识别模型,以生成识别文本序列并记录输出时间戳;基于合成时间戳和输出时间戳之间的重叠区间,以回溯匹配至原始时间戳;根据回溯匹配的结果构建包含说话人,时间戳以及识别文本的三元组。本发明还提供一种多声道通话录音识别装置。本发明提供的方法能实现在保持语义准确性的同时,识别说话人并重建通话逻辑顺序。
技术关键词
人工智能模型
多声道
识别方法
语音识别模型
语音活动检测
三元组
音频
识别装置
文本
数据
格式
策略
序列
语义
逻辑
系统为您推荐了相关专利信息
动作智能
乒乓球
迁移学习策略
判断算法
动作识别模型
多模态特征融合
气象预警系统
反射率
识别方法
融合特征
语义分割模型
信息显示设备
物体检测
红绿灯
交通工具