多语种自动语音识别方法、装置、计算机设备及存储介质

正文

推荐专利

申请号：CN202411496167

申请日期：2024-10-24

公开号：CN119314486B

公开日期：2025-11-21

类型：发明专利

摘要

本申请实施例属于人工智能领域，涉及一种多语种自动语音识别方法，包括对输入语音进行处理，得到语音嵌入向量序列；基于预训练的ByT5模型的编码器提取语音嵌入向量序列的特征，得到语音嵌入向量序列的比特编码；将语音嵌入向量序列的比特编码按照预设的输入数据结构输入至ByT5模型的解码器，ByT5模型的解码器解码后按照预设的输出数据结构输出目标语言文字的比特编码；将ByT5模型的解码器输出的目标语言文字的比特编码组成序列作为下一次的输入再进行解码，生成目标文本序列。本申请还提供一种多语种自动语音识别装置、计算机设备及存储介质。本申请成功实现了信息从音频到文本的跨模态转换。

技术关键词

自动语音识别方法解码器标志位序列计算机可读指令代表文本计算机设备编码器解码模块可读存储介质处理器存储器

系统为您推荐了相关专利信息

一种基于时序日志的服务器异常检测方法

编码器解码器引入注意力机制日志时序

一种基于深度学习的高灵敏表面等离子体检测系统及方法

信息提取模型空间特征信息序列特征信息提取低信噪比图像

基于多源领域适应的文本情感分类方法、系统及设备

文本情感分类方法文本情感分类模型标签序列数据

一种基于智能体的自动化运维方法及系统

IT系统数据采集层自动化运维方法自动化运维系统时间序列数据库

一种基于海陆风电协同的电力系统优化调度方法、系统、终端设备及存储介质

电力系统优化调度方法出力场景水电机组序列周期

多语种自动语音识别方法、装置、计算机设备及存储介质

站点导航

APP 下载