多视角视频匹配模型训练方法、多视角视频匹配方法及相关设备

正文

推荐专利

申请号：CN202510485181

申请日期：2025-04-16

公开号：CN120472362A

公开日期：2025-08-12

类型：发明专利

摘要

本申请实施例提出的多视角视频匹配模型训练方法、多视角视频匹配方法及相关设备，方法包括：获取多组视频样本数据和每个视频样本数据对应的语音样本数据和视频描述文本；将视频样本数据和语音样本数据和输入多视角视频匹配模型中的视频音频编码器进行处理，得到第一视角对应的第一视频模态视听表征和第三视角对应的第三视频模态视听表征；将视频描述文本输入多视角视频匹配模型中的文本编码器进行处理，得到文本模态视听表征；基于第一视频模态视听表征、第三视频模态视听表征和文本模态视听表征计算得到多视角模态损失，并基于多视角模态损失对多视角视频匹配模型进行更新，提高多视角视频数据识别匹配的精准性。

技术关键词

多视角模型训练方法视听音频编码器视频匹配方法文本编码器大语言模型样本语音视频编码器注意力指数动态时间规整模型训练装置数据获取模块

系统为您推荐了相关专利信息

模型训练方法、数据处理方法、系统及存储介质

模型训练方法数据处理方法训练集多任务数据验证

图像质量评价模型训练和评价方法、系统、设备及介质

视觉特征编码模型训练方法样本评价方法模版

一种基于机械臂辅助的多视角航空构件三维点云全局拼接方法

配准系统遗传算法优化参数坐标系矩阵点云

基于反事实数据增强和多视角思维链的大模型知识蒸馏方法

大语言模型知识蒸馏方法文本答案数据

多模态语音驱动实现个性化歌声合成模型训练方法

编码特征模型训练方法频谱特征生成特征声码器

多视角视频匹配模型训练方法、多视角视频匹配方法及相关设备

站点导航

APP 下载