面向多模态交互的大语言模型联合训练方法及系统

正文

推荐专利

申请号：CN202510395320

申请日期：2025-03-31

公开号：CN120509476A

公开日期：2025-08-19

类型：发明专利

摘要

本发明提供一种面向多模态交互的大语言模型联合训练方法及系统，所述方法包括以下步骤：获取包含字幕和声音的原始视频，并将原始视频拆解为多个数据组，其中，每个数据组包括相互对应的文字数据、语音数据和图像数据；将多个数据组中的每种模态的数据分别单独提取出来，得到由多个文字数据构成的第一训练数据、由多个语音数据构成的第二训练数据和由多个图像数据构成的第三训练数据；在第一训练阶段，分别地通过第一训练数据对大语言模型进行训练、通过第二训练数据对大语言模型进行训练和通过第三训练数据对大语言模型进行训练；在第二训练阶段，以多个数据组作为第四训练数据，通过第四训练数据对大语言模型进行训练。

技术关键词

模型联合训练方法多模态交互编码器解码器训练样本数据大语言模型训练系统注意力图像文字特征语音特征视频字幕阶段模块

面向多模态交互的大语言模型联合训练方法及系统

站点导航

APP 下载