一种多模态智能终端的语音识别方法及系统

正文

推荐专利

一种多模态智能终端的语音识别方法及系统

申请号：CN202411025556

申请日期：2024-07-30

公开号：CN118553235A

公开日期：2024-08-27

类型：发明专利

摘要

本发明涉及语音识别技术领域，具体涉及一种多模态智能终端的语音识别方法及系统，包括：终端采集到的多模态数据包括视频数据和语音数据，根据语音数据判断是否存在语音交互行为；同时将视频数据和语音数据分别对应输入到两个Transformer网络中进行训练；在训练过程中，当存在语音交互行为时将视频数据与语音数据的Transformer网络的自注意力层进行相互连接，当不存在语音交互行为时，则不进行连接；利用训练好的两个Transformer网络进行语音识别。本发明利用视频数据和语音数据一同进行语音识别，提高了识别的准确率。

技术关键词

语音识别方法注意力智能终端数据多模态视频网络误差矩阵参数更新方法梅尔倒谱系数语音识别系统语音识别技术随机梯度下降文本麦克风聚类处理器时间段

系统为您推荐了相关专利信息

一种餐饮废油管理方法及系统

餐饮废油风险评估报告管理方法身份标签

一种基于无线信号的摄像头探测方法

探针设备移动终端蓝牙无线摄像头数据

一种基于大语言模型的政策比对方法及系统

大语言模型比对方法列表样本数据

一种智能化客户生命周期管理SCRM系统及方法

生命周期管理画像动态客户关系管理技术强化学习模型

一种用于分散气体的搅拌器及其设计方法

搅拌器叶片进气口通气孔气体

一种多模态智能终端的语音识别方法及系统

站点导航

APP 下载