一种跨模态跨语言的语音大模型训练方法及其系统

正文

推荐专利

申请号：CN202510381792

申请日期：2025-03-28

公开号：CN120279897A

公开日期：2025-07-08

类型：发明专利

摘要

本申请公开了一种跨模态跨语言的语音大模型训练方法及其系统，方法包括：收集多语言语音文本平行数据集及文本指令数据集，获得语音识别与语音合成数据；合并数据集，进行大语言模型的预训练及词表扩展；采用连接时序分类的对齐方法，在同语言之内将语音和文本进行跨模态对齐，不同语言之间通过文本进行跨语言对齐，构造生成单语言或跨语言语音指令数据集，训练得到完成单语言或跨语言的语音对话任务的语音大模型；采用语音对话指令数据进行有监督微调，并推理应用预训练的语音大模型。本发明方法及其系统在语音大模型上达成了跨模态和跨语言的对齐，使语音大模型输出的语言上出错更少，同时有更好性能。

技术关键词

跨模态模型训练方法文本语音识别指令机器翻译模型训练系统对齐方法大语言模型数据收集模块模型预训练多语言对齐模块格式处理器时序语义

系统为您推荐了相关专利信息

一种基于多模态解析与风险预警的合同评审系统及方法

合同评审方法评审系统多模态搜索引擎模块 OA系统

一种基于人工智能生成内容的文本处理方法及系统

文本处理方法掩码矩阵风格编码向量关键词

日志检索辅助方法、装置、介质、电子设备以及产品

语句展示卡片日志分析检索辅助方法控件

一种基于深度学习的银行数据报表智能核查方法

智能核查方法非结构化文本在线学习系统模式识别 NLP技术

一种安全隐患治理措施的智能推荐方法

智能推荐方法 BERT模型位置特征信息措施样本

一种跨模态跨语言的语音大模型训练方法及其系统

站点导航

APP 下载