摘要
本发明提供了一种基于人工智能的语音控制方法、装置、设备及存储介质,该方法包括:对采集的语音信号进行预处理,得到梅尔频谱图;利用两个预设的集成深度学习模型对梅尔频谱图进行特征提取,得到联合特征向量;对联合特征向量进行注意力加权融合和降维,得到融合特征表示;对融合特征表示进行分块、线性投影和位置编码处理,得到编码序列;将编码序列输入Transformer编码器,经全局平均池化得到固定长度向量表示;利用多层感知机进行分层分类,得到指令类别和关键参数;生成标准化控制指令并发送至智能设备。本方法能有效处理非标准语音,提高识别准确率和实时性,增强系统泛化能力,适用于多样化语音输入场景。
技术关键词
集成深度学习
语音控制方法
融合特征
全局平均池化
多层感知机
语音控制设备
编码器
前馈神经网络
投影特征
局部特征提取
梅尔频率倒谱系数
序列
智能设备
指令
语音控制装置
注意力机制
多尺度特征
系统为您推荐了相关专利信息
PID温度控制
温度控制元件
动作策略
温度控制算法
模糊推理
交通标志识别
交通标志检测方法
融合特征
语义特征
重叠面积
高心墙堆石坝
早期识别方法
指标
三维激光扫描数据
统计特征
人体关键部位
三维人体模型
性预测方法
三维服装模型
空气层
空间模块
语义分割方法
船舶
输出特征
离散状态空间