摘要
本申请实施例提出的多视角视频匹配模型训练方法、多视角视频匹配方法及相关设备,方法包括:获取多组视频样本数据和每个视频样本数据对应的语音样本数据和视频描述文本;将视频样本数据和语音样本数据和输入多视角视频匹配模型中的视频音频编码器进行处理,得到第一视角对应的第一视频模态视听表征和第三视角对应的第三视频模态视听表征;将视频描述文本输入多视角视频匹配模型中的文本编码器进行处理,得到文本模态视听表征;基于第一视频模态视听表征、第三视频模态视听表征和文本模态视听表征计算得到多视角模态损失,并基于多视角模态损失对多视角视频匹配模型进行更新,提高多视角视频数据识别匹配的精准性。
技术关键词
多视角
模型训练方法
视听
音频编码器
视频匹配方法
文本编码器
大语言模型
样本
语音
视频编码器
注意力
指数
动态时间规整
模型训练装置
数据获取模块
系统为您推荐了相关专利信息
模型训练方法
数据处理方法
训练集
多任务
数据验证
编码特征
模型训练方法
频谱特征
生成特征
声码器