一种基于多模态语音识别模型预测语音内容的方法及装置

正文

推荐专利

申请号：CN202510222311

申请日期：2025-02-27

公开号：CN120108387A

公开日期：2025-06-06

类型：发明专利

摘要

本发明公开一种基于多模态语音识别模型预测语音内容的方法及装置，多模态语音识别模型包括语音转文本大模型、模态适应层、Embedding层和大语言模型，多模态语音识别模型的训练流程包括：第一训练阶段：使用自动语音识别数据训练多模态语音识别模型，大语言模型和Embedding层的模型参数保持固定，对语音转文本大模型和模态适应层进行训练；第二训练阶段：第一训练阶段完成之后，将第一训练阶段训练得到的语音转文本大模型的模型参数保持固定，对大语言模型采用优化微调策略，使用与第一阶段相同的自动语音识别数据训练多模态语音识别模型。本发明的一种基于多模态语音识别模型预测语音内容的方法，解决了固定语言模型参数不能很好适配实际场景需求的技术问题。

技术关键词

多模态语音自动语音识别大语言模型文本计算机可执行程序适配器阶段模型训练模块计算机可读记录介质矩阵参数策略音频特征数据场景

一种基于多模态语音识别模型预测语音内容的方法及装置

站点导航

APP 下载