多视角视频匹配模型训练方法、多视角视频匹配方法及相关设备

AITNT
正文
推荐专利
多视角视频匹配模型训练方法、多视角视频匹配方法及相关设备
申请号:CN202510485181
申请日期:2025-04-16
公开号:CN120472362A
公开日期:2025-08-12
类型:发明专利
摘要
本申请实施例提出的多视角视频匹配模型训练方法、多视角视频匹配方法及相关设备,方法包括:获取多组视频样本数据和每个视频样本数据对应的语音样本数据和视频描述文本;将视频样本数据和语音样本数据和输入多视角视频匹配模型中的视频音频编码器进行处理,得到第一视角对应的第一视频模态视听表征和第三视角对应的第三视频模态视听表征;将视频描述文本输入多视角视频匹配模型中的文本编码器进行处理,得到文本模态视听表征;基于第一视频模态视听表征、第三视频模态视听表征和文本模态视听表征计算得到多视角模态损失,并基于多视角模态损失对多视角视频匹配模型进行更新,提高多视角视频数据识别匹配的精准性。
技术关键词
多视角 模型训练方法 视听 音频编码器 视频匹配方法 文本编码器 大语言模型 样本 语音 视频编码器 注意力 指数 动态时间规整 模型训练装置 数据获取模块
系统为您推荐了相关专利信息
1
模型训练方法、数据处理方法、系统及存储介质
模型训练方法 数据处理方法 训练集 多任务 数据验证
2
图像质量评价模型训练和评价方法、系统、设备及介质
视觉特征编码 模型训练方法 样本 评价方法 模版
3
一种基于机械臂辅助的多视角航空构件三维点云全局拼接方法
配准系统 遗传算法优化参数 坐标系 矩阵 点云
4
基于反事实数据增强和多视角思维链的大模型知识蒸馏方法
大语言模型 知识蒸馏方法 文本 答案 数据
5
多模态语音驱动实现个性化歌声合成模型训练方法
编码特征 模型训练方法 频谱特征 生成特征 声码器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号