语言视频模型训练及视频处理方法、设备、介质和产品

AITNT
正文
推荐专利
语言视频模型训练及视频处理方法、设备、介质和产品
申请号:CN202411053459
申请日期:2024-08-01
公开号:CN118608900B
公开日期:2024-12-27
类型:发明专利
摘要
本发明实施例提供一种语言视频模型训练及视频处理方法、设备、介质和产品,属于AI领域,该方法包括:获取训练样本视频及其对应的详细描述文本和摘要描述文本;通过语言视频模型中的文本编码器和视频编码器分别确定详细描述文本的第一文本特征、摘要描述文本的第二文本特征,训练样本视频的第一视频特征;以第一文本特征与第二文本特征之间的第一相似度为指导,对第一视频特征进行主成分提取得到第二视频特征;根据第一视频特征和第一文本特征确定第一损失函数值,并根据第二视频特征和第二文本特征确定第二损失函数值;根据第一损失函数值和第二损失函数值,训练语言视频模型,使得该语言视频模型具有良好的长视频描述文本的理解能力。
技术关键词
文本编码器 非暂时性机器可读存储介质 视频编码器 大语言模型 摘要 模型训练方法 关键帧 视觉特征信息 处理器 训练样本数据 电子设备 计算机程序产品 通信接口 存储器 数值 对象
系统为您推荐了相关专利信息
1
一种多模态多源异构数据融合方法
多源异构数据融合 多模态 文件哈希值 度计算方法 数据处理技术
2
基于多样性与可解释建模的鲁棒试题编码评分方法及系统
评分方法 编码 关键词 摘要 主题发现方法
3
一种基于强化学习的多语言环境翻译语境优化方法
上下文语境信息 路由器 调度算法 信号生成单元 策略更新
4
基于Re-Plan原则的家庭机器人动作生成方法
动作生成方法 家庭机器人 家庭服务机器人 视觉特征 大语言模型
5
一种评估大语言模型在建筑领域应用效果的方法及系统
大语言模型 建筑 正确率 有效率 提问方法
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号