摘要
本申请实施例属于人工智能领域,涉及一种多语种自动语音识别方法,包括对输入语音进行处理,得到语音嵌入向量序列;基于预训练的ByT5模型的编码器提取语音嵌入向量序列的特征,得到语音嵌入向量序列的比特编码;将语音嵌入向量序列的比特编码按照预设的输入数据结构输入至ByT5模型的解码器,ByT5模型的解码器解码后按照预设的输出数据结构输出目标语言文字的比特编码;将ByT5模型的解码器输出的目标语言文字的比特编码组成序列作为下一次的输入再进行解码,生成目标文本序列。本申请还提供一种多语种自动语音识别装置、计算机设备及存储介质。本申请成功实现了信息从音频到文本的跨模态转换。
技术关键词
自动语音识别方法
解码器
标志位
序列
计算机可读指令
代表
文本
计算机设备
编码器
解码模块
可读存储介质
处理器
存储器
系统为您推荐了相关专利信息
信息提取模型
空间特征信息
序列
特征信息提取
低信噪比图像
文本情感分类方法
文本情感分类模型
标签
序列
数据
IT系统
数据采集层
自动化运维方法
自动化运维系统
时间序列数据库
电力系统优化调度方法
出力场景
水电机组
序列
周期