基于单声道人工智能模型的多声道通话录音识别方法及装置

AITNT
正文
推荐专利
基于单声道人工智能模型的多声道通话录音识别方法及装置
申请号:CN202511393740
申请日期:2025-09-28
公开号:CN120895028A
公开日期:2025-11-04
类型:发明专利
摘要
本发明公开了一种基于单声道人工智能模型的多声道通话录音识别方法,包括:输入多声道通话音频数据;针对每个声道进行语音活动检测,以获取每个声道中的语音片段以及检测时对应的原始时间戳;基于原始时间戳的先后顺序对原始时间戳进行排序,构建一条单声道音频并记录合成时间戳;将构建获得的单声道音频输入至预训练的单声道语音识别模型,以生成识别文本序列并记录输出时间戳;基于合成时间戳和输出时间戳之间的重叠区间,以回溯匹配至原始时间戳;根据回溯匹配的结果构建包含说话人,时间戳以及识别文本的三元组。本发明还提供一种多声道通话录音识别装置。本发明提供的方法能实现在保持语义准确性的同时,识别说话人并重建通话逻辑顺序。
技术关键词
人工智能模型 多声道 识别方法 语音识别模型 语音活动检测 三元组 音频 识别装置 文本 数据 格式 策略 序列 语义 逻辑
系统为您推荐了相关专利信息
1
语音识别方法、装置、存储介质及电子设备
语音特征 音频 预训练模型 数据 文本识别
2
基于深度学习的乒乓球对空颠球动作智能识别方法和系统
动作智能 乒乓球 迁移学习策略 判断算法 动作识别模型
3
一种基于雷达卫星多模态特征融合的冰雹识别方法与装置
多模态特征融合 气象预警系统 反射率 识别方法 融合特征
4
一种基于交叉注意力的跨域行为识别方法
识别方法 融合特征 数据 交叉注意力机制 语义
5
一种尺寸无关的多物体显著性检测方法及装置
语义分割模型 信息显示设备 物体检测 红绿灯 交通工具
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号