针对口语问答的端到端的多模态大模型的训练方法及系统

正文

推荐专利

申请号：CN202411114871

申请日期：2024-08-14

公开号：CN118782040A

公开日期：2024-10-15

类型：发明专利

摘要

本发明提供了一种针对口语问答的端到端的多模态大语言模型的训练方法及系统，包括：利用现有语音识别数据集构建针对大语言模型的口语问答数据集；利用语音预训练模型提取输入语音的帧级语音特征向量提取器；利用文本预训练模型提取输入文本的文本特征向量提取器；利用线性变化模块进行语音和文本特征融合的特征融合模块；利用文本预训练大语言模型对融合特征进行解码并产生文本输出的解码器部分。本发明提出了一种便捷的数据集构建方式，并提出分别利用语音，文本预训练模型提取语音和文本的特征向量，两种特征向量通过提出的特征融合模块进行融合后送入文本预训练大语言模型并进行参数微调，以实现端到端的多模态大语言模型训练。

技术关键词

大语言模型预训练模型文本特征向量多模态训练系统数据答案音频特征语音特征样本模块令牌解码器非线性融合特征参数

针对口语问答的端到端的多模态大模型的训练方法及系统

站点导航

APP 下载