摘要
本申请公开了一种跨模态跨语言的语音大模型训练方法及其系统,方法包括:收集多语言语音文本平行数据集及文本指令数据集,获得语音识别与语音合成数据;合并数据集,进行大语言模型的预训练及词表扩展;采用连接时序分类的对齐方法,在同语言之内将语音和文本进行跨模态对齐,不同语言之间通过文本进行跨语言对齐,构造生成单语言或跨语言语音指令数据集,训练得到完成单语言或跨语言的语音对话任务的语音大模型;采用语音对话指令数据进行有监督微调,并推理应用预训练的语音大模型。本发明方法及其系统在语音大模型上达成了跨模态和跨语言的对齐,使语音大模型输出的语言上出错更少,同时有更好性能。
技术关键词
跨模态
模型训练方法
文本
语音识别指令
机器翻译
模型训练系统
对齐方法
大语言模型
数据收集模块
模型预训练
多语言
对齐模块
格式
处理器
时序
语义
系统为您推荐了相关专利信息
合同评审方法
评审系统
多模态
搜索引擎模块
OA系统
智能核查方法
非结构化文本
在线学习系统
模式识别
NLP技术
智能推荐方法
BERT模型
位置特征信息
措施
样本