摘要
本发明涉及AI玩具的技术领域,提供了AI玩具声纹识别交互方法、装置及设备,包括获取待识别的目标语音信号后,提取原始音频数据集以生成声场估计参数和背景噪声特征后,对目标语音信号进行声纹特征提取,得到声纹特征向量,将声纹特征向量与预设的儿童声纹向量集进行特征聚类,得到用户身份信息、行为标签和情绪标签,以生成对应的多模态响应指令,将多模态响应指令输入AI玩具的控制模块。通过结合声场估计参数与背景噪声特征提升了目标语音信号在复杂环境中的鲁棒性,并通过提取声纹特征向量和聚类与相似度计算,改善在环境噪声干扰显著或语义情绪交互复杂的情况下,存在着识别准确率低和用户区分度不高的问题。
技术关键词
背景噪声特征
语义意图
多模态响应
交互方法
身份
玩具
语音
时序结构
生成声场
标签
聚类
信号
音频
声源三维定位
偏移特征
控制模块
麦克风阵列
路径结构
参数
系统为您推荐了相关专利信息
防火墙系统
访问控制策略
防火墙规则
身份
接入虚拟专用网络
通行控制系统
外部管理系统
人脸特征数据
人脸特征向量
中央控制单元