摘要
本发明提供了一种针对口语问答的端到端的多模态大语言模型的训练方法及系统,包括:利用现有语音识别数据集构建针对大语言模型的口语问答数据集;利用语音预训练模型提取输入语音的帧级语音特征向量提取器;利用文本预训练模型提取输入文本的文本特征向量提取器;利用线性变化模块进行语音和文本特征融合的特征融合模块;利用文本预训练大语言模型对融合特征进行解码并产生文本输出的解码器部分。本发明提出了一种便捷的数据集构建方式,并提出分别利用语音,文本预训练模型提取语音和文本的特征向量,两种特征向量通过提出的特征融合模块进行融合后送入文本预训练大语言模型并进行参数微调,以实现端到端的多模态大语言模型训练。
技术关键词
大语言模型
预训练模型
文本特征向量
多模态
训练系统
数据
答案
音频特征
语音特征
样本
模块
令牌
解码器
非线性
融合特征
参数