一种基于多模态视听融合的transformer语音识别方法、系统、设备及介质

AITNT
正文
推荐专利
一种基于多模态视听融合的transformer语音识别方法、系统、设备及介质
申请号:CN202510083582
申请日期:2025-01-20
公开号:CN120108390A
公开日期:2025-06-06
类型:发明专利
摘要
本发明公开了一种基于多模态视听融合的transformer语音识别方法、系统、设备及介质,包括获取待处理的音视频数据,音视频数据包括成对的音频数据和视频数据;音频数据特征提取,得到音频特征;视频数据特征提取,得到视频特征;将提取的音频特征和视频特征输入Transformer模型中,输出预测的文本信息;Transformer模型包括编码器、解码器以及混合CTC/attention。本发明将原始信号转换为Transformer模型可处理的特征向量后,通过整合音频和视频模态的信息,并应用动态的权重分配来平衡不同模态间的信息贡献;利用编码器和解码器结构实现了语音到文本的转换,同时借助多头自注意力机制捕获了输入序列内部各位置间的依赖关系,解决了语音识别在复杂环境中的表现受限于噪声、口音和语速影响的问题。
技术关键词
音频特征 语音识别方法 数据特征提取 多模态 编码器 解码器 视听 音视频 注意力机制 优化FFT算法 序列 卷积神经网络结构 噪声检测模块 语音识别设备 语音识别系统 文本
系统为您推荐了相关专利信息
1
一种在线学习的游戏化优化方法、装置、设备及存储介质
教育游戏 化优化方法 静态特征 文本编码器 图像编码器
2
问答方法、装置、设备、介质和程序产品
多模态信息 索引 表格 意图 文本
3
用户体验预测方法、装置、电子设备及存储介质
系统调用序列 需求预测模型 系统配置数据 快照 体验模型
4
航空发动机故障数据的生成方法、装置和计算机设备
数据生成模型 航空发动机故障 故障场景 多场景 数据分布
5
碳钢点蚀坑生长方向预测方法、装置、电子设备及存储介质
图像分割 激光共聚焦显微镜 前馈神经网络 碳钢 样本
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号