摘要
本发明实施例提供一种语言视频模型训练及视频处理方法、设备、介质和产品,属于AI领域,该方法包括:获取训练样本视频及其对应的详细描述文本和摘要描述文本;通过语言视频模型中的文本编码器和视频编码器分别确定详细描述文本的第一文本特征、摘要描述文本的第二文本特征,训练样本视频的第一视频特征;以第一文本特征与第二文本特征之间的第一相似度为指导,对第一视频特征进行主成分提取得到第二视频特征;根据第一视频特征和第一文本特征确定第一损失函数值,并根据第二视频特征和第二文本特征确定第二损失函数值;根据第一损失函数值和第二损失函数值,训练语言视频模型,使得该语言视频模型具有良好的长视频描述文本的理解能力。
技术关键词
文本编码器
非暂时性机器可读存储介质
视频编码器
大语言模型
摘要
模型训练方法
关键帧
视觉特征信息
处理器
训练样本数据
电子设备
计算机程序产品
通信接口
存储器
数值
对象
系统为您推荐了相关专利信息
多源异构数据融合
多模态
文件哈希值
度计算方法
数据处理技术
上下文语境信息
路由器
调度算法
信号生成单元
策略更新
动作生成方法
家庭机器人
家庭服务机器人
视觉特征
大语言模型