摘要
本发明涉及语音识别技术领域,具体涉及一种多模态智能终端的语音识别方法及系统,包括:终端采集到的多模态数据包括视频数据和语音数据,根据语音数据判断是否存在语音交互行为;同时将视频数据和语音数据分别对应输入到两个Transformer网络中进行训练;在训练过程中,当存在语音交互行为时将视频数据与语音数据的Transformer网络的自注意力层进行相互连接,当不存在语音交互行为时,则不进行连接;利用训练好的两个Transformer网络进行语音识别。本发明利用视频数据和语音数据一同进行语音识别,提高了识别的准确率。
技术关键词
语音识别方法
注意力
智能终端
数据
多模态
视频
网络
误差
矩阵
参数更新方法
梅尔倒谱系数
语音识别系统
语音识别技术
随机梯度下降
文本
麦克风
聚类
处理器
时间段
系统为您推荐了相关专利信息
生命周期管理
画像
动态
客户关系管理技术
强化学习模型