摘要
本发明提供一种面向多模态交互的大语言模型联合训练方法及系统,所述方法包括以下步骤:获取包含字幕和声音的原始视频,并将原始视频拆解为多个数据组,其中,每个数据组包括相互对应的文字数据、语音数据和图像数据;将多个数据组中的每种模态的数据分别单独提取出来,得到由多个文字数据构成的第一训练数据、由多个语音数据构成的第二训练数据和由多个图像数据构成的第三训练数据;在第一训练阶段,分别地通过第一训练数据对大语言模型进行训练、通过第二训练数据对大语言模型进行训练和通过第三训练数据对大语言模型进行训练;在第二训练阶段,以多个数据组作为第四训练数据,通过第四训练数据对大语言模型进行训练。
技术关键词
模型联合训练方法
多模态交互
编码器
解码器
训练样本数据
大语言模型
训练系统
注意力
图像
文字特征
语音特征
视频
字幕
阶段
模块