摘要
本发明公开了一种长时语音的多情绪感知定位方法及系统,涉及人工智能技术领域,将待识别的长时语音输入到已训练完成的时序多尺度空间对偶模型中,输出所述长时语音中的多个情绪状态;时序多尺度空间对偶模型的训练过程如下:构成训练数据集;将训练数据集输入到时序多尺度SSD架构中,得到低维状态空间对偶输出、中维状态空间对偶输出和高维状态空间对偶输出;将低维状态空间对偶输出、中维状态空间对偶输出和高维状态空间对偶输出进行特征融合,将融合所得到的复杂长时多情感语音时序特征输入情绪解析模块,以预测最终的多情绪标签及时间定位信息;该多情绪感知定位方法及系统增强了多情绪识别的准确性和鲁棒性。
技术关键词
时间定位
语音
定位方法
时序特征
模块
预训练模型
标签
人工智能技术
多层感知机
机制
输出特征
定位系统
多尺度
鲁棒性
数据
参数
元素
误差
线性