一种跨模态跨语言的语音大模型训练方法及其系统

AITNT
正文
推荐专利
一种跨模态跨语言的语音大模型训练方法及其系统
申请号:CN202510381792
申请日期:2025-03-28
公开号:CN120279897A
公开日期:2025-07-08
类型:发明专利
摘要
本申请公开了一种跨模态跨语言的语音大模型训练方法及其系统,方法包括:收集多语言语音文本平行数据集及文本指令数据集,获得语音识别与语音合成数据;合并数据集,进行大语言模型的预训练及词表扩展;采用连接时序分类的对齐方法,在同语言之内将语音和文本进行跨模态对齐,不同语言之间通过文本进行跨语言对齐,构造生成单语言或跨语言语音指令数据集,训练得到完成单语言或跨语言的语音对话任务的语音大模型;采用语音对话指令数据进行有监督微调,并推理应用预训练的语音大模型。本发明方法及其系统在语音大模型上达成了跨模态和跨语言的对齐,使语音大模型输出的语言上出错更少,同时有更好性能。
技术关键词
跨模态 模型训练方法 文本 语音识别指令 机器翻译 模型训练系统 对齐方法 大语言模型 数据收集模块 模型预训练 多语言 对齐模块 格式 处理器 时序 语义
系统为您推荐了相关专利信息
1
一种基于多模态解析与风险预警的合同评审系统及方法
合同评审方法 评审系统 多模态 搜索引擎模块 OA系统
2
一种基于人工智能生成内容的文本处理方法及系统
文本处理方法 掩码矩阵 风格 编码向量 关键词
3
日志检索辅助方法、装置、介质、电子设备以及产品
语句 展示卡片 日志分析 检索辅助方法 控件
4
一种基于深度学习的银行数据报表智能核查方法
智能核查方法 非结构化文本 在线学习系统 模式识别 NLP技术
5
一种安全隐患治理措施的智能推荐方法
智能推荐方法 BERT模型 位置特征信息 措施 样本
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号