多语种自动语音识别方法、装置、计算机设备及存储介质

AITNT
正文
推荐专利
多语种自动语音识别方法、装置、计算机设备及存储介质
申请号:CN202411496167
申请日期:2024-10-24
公开号:CN119314486B
公开日期:2025-11-21
类型:发明专利
摘要
本申请实施例属于人工智能领域,涉及一种多语种自动语音识别方法,包括对输入语音进行处理,得到语音嵌入向量序列;基于预训练的ByT5模型的编码器提取语音嵌入向量序列的特征,得到语音嵌入向量序列的比特编码;将语音嵌入向量序列的比特编码按照预设的输入数据结构输入至ByT5模型的解码器,ByT5模型的解码器解码后按照预设的输出数据结构输出目标语言文字的比特编码;将ByT5模型的解码器输出的目标语言文字的比特编码组成序列作为下一次的输入再进行解码,生成目标文本序列。本申请还提供一种多语种自动语音识别装置、计算机设备及存储介质。本申请成功实现了信息从音频到文本的跨模态转换。
技术关键词
自动语音识别方法 解码器 标志位 序列 计算机可读指令 代表 文本 计算机设备 编码器 解码模块 可读存储介质 处理器 存储器
系统为您推荐了相关专利信息
1
一种基于时序日志的服务器异常检测方法
编码器 解码器 引入注意力机制 日志 时序
2
一种基于深度学习的高灵敏表面等离子体检测系统及方法
信息提取模型 空间特征信息 序列 特征信息提取 低信噪比图像
3
基于多源领域适应的文本情感分类方法、系统及设备
文本情感分类方法 文本情感分类模型 标签 序列 数据
4
一种基于智能体的自动化运维方法及系统
IT系统 数据采集层 自动化运维方法 自动化运维系统 时间序列数据库
5
一种基于海陆风电协同的电力系统优化调度方法、系统、终端设备及存储介质
电力系统优化调度方法 出力场景 水电机组 序列 周期
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号