摘要
本公开提供了一种视频理解大模型的训练方法,可以应用于人工智能技术领域和视频理解技术领域。该视频理解大模型的训练方法包括:获取多个第一训练样本,其中,第一训练样本包括样本视频、第一问题文本和第一答案文本;基于多个预设大模型各自对多个第一训练样本的测试结果,对多个第一训练样本进行样本筛选,得到多个第二训练样本;分别对多个第二训练样本各自的文本内容进行预处理,得到多个第三训练样本;以及利用多个第三训练样本对初始模型进行微调训练,得到目标视频理解大模型。本公开还提供了一种视频理解方法、一种智能体。
技术关键词
视频理解方法
答案
文本理解
生成输出信息
语义特征
样本
融合特征
输入模块
理解技术
视频帧
人工智能技术
时序
风格
输出模块
框架
视觉
线索