一种多模态智能终端的语音识别方法及系统

AITNT
正文
推荐专利
一种多模态智能终端的语音识别方法及系统
申请号:CN202411025556
申请日期:2024-07-30
公开号:CN118553235A
公开日期:2024-08-27
类型:发明专利
摘要
本发明涉及语音识别技术领域,具体涉及一种多模态智能终端的语音识别方法及系统,包括:终端采集到的多模态数据包括视频数据和语音数据,根据语音数据判断是否存在语音交互行为;同时将视频数据和语音数据分别对应输入到两个Transformer网络中进行训练;在训练过程中,当存在语音交互行为时将视频数据与语音数据的Transformer网络的自注意力层进行相互连接,当不存在语音交互行为时,则不进行连接;利用训练好的两个Transformer网络进行语音识别。本发明利用视频数据和语音数据一同进行语音识别,提高了识别的准确率。
技术关键词
语音识别方法 注意力 智能终端 数据 多模态 视频 网络 误差 矩阵 参数更新方法 梅尔倒谱系数 语音识别系统 语音识别技术 随机梯度下降 文本 麦克风 聚类 处理器 时间段
系统为您推荐了相关专利信息
1
一种餐饮废油管理方法及系统
餐饮废油 风险评估报告 管理方法 身份 标签
2
一种基于无线信号的摄像头探测方法
探针设备 移动终端 蓝牙 无线摄像头 数据
3
一种基于大语言模型的政策比对方法及系统
大语言模型 比对方法 列表 样本 数据
4
一种智能化客户生命周期管理SCRM系统及方法
生命周期管理 画像 动态 客户关系管理技术 强化学习模型
5
一种用于分散气体的搅拌器及其设计方法
搅拌器 叶片 进气口 通气孔 气体
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号