摘要
本申请提供一种大模型的训练方法、视频处理方法、装置及相关设备,该方法包括:对样本视频进行预处理,得到多个视频帧、时间戳指令文本和任务指令文本;对时间戳指令文本和任务指令文本进行分词,得到时间戳指令分词文本和任务指令分词文本;对多个视频帧、时间戳指令分词文本和任务指令分词文本进行特征转换,得到第一目标特征;使用第一目标特征对预设大模型进行指令调整,得到目标大模型。本申请通过将样本视频进行预处理后得到多个视频帧、时间戳指令文本和任务指令文本,并由此进行特征融合和转换,得到第一目标特征并对预设大模型进行指令调整,得到目标大模型,更好地考虑视频动作和文本描述的关系,提高了大模型对视频处理的准确度。
技术关键词
文本
编码特征
分词
视频帧
指令
音频生成方法
计算机程序产品
图像特征提取模型
滑动窗口
样本
答案
生成应用程序
模版
处理器
模块
编码器
训练装置
存储器
系统为您推荐了相关专利信息
宫颈细胞病理
风险预测模型
宫颈癌发病风险
融合特征
文本