摘要
本发明提供一种基于人工智能的语音识别方法及系统,涉及语音识别技术领域,本发明实时采集语音信号,对语音信号进行降噪后通过梅尔频率倒谱系数提取语音信号特征,组合梅尔倒谱系数、梅尔倒谱系数的一阶差分和二阶差分形成语音特征向量。同时采集唇动图像作为视觉信号,对图像进行灰度化处理之后,通过计算图像中像素点的LBP值生成图像特征向量,通过跨模态注意力机制动态调整语音特征向量和图像特征向量的权重,生成融合权重矩阵,不同的融合权重矩阵对应不同的语音指令,将语音原始信号和视觉原始图像作为训练集,融合权重矩阵对应的语音指令作为标签训练深度学习网络模型,最后使用将实时采集的数据输入训练好的模型进行实时语音识别。
技术关键词
语音识别方法
像素点
梅尔频率倒谱系数
图像特征向量
语音特征
梅尔倒谱系数
矩阵
信号
深度学习网络模型
直方图
构建深度学习网络
滤波器
邻域
注意力机制
视觉
系统为您推荐了相关专利信息
覆膜砂
图像分析模型
模拟分析方法
裂缝
分析模块
图像背景虚化方法
背景图
像素点
图像语义分割模型
缩略图
生成对抗网络模型
深度估计算法
图像采集模块
深度图
图像特征信息