基于跨视角语义对齐的第一人称视频问答方法及系统

正文

推荐专利

申请号：CN202510147029

申请日期：2025-02-11

公开号：CN119622024B

公开日期：2025-05-09

类型：发明专利

摘要

本发明涉及基于跨视角语义对齐的第一人称视频问答方法及系统，属于视频问答技术领域，方法包括：收集并筛选第三人称视频‑文本配对数据，训练第三人称视频编码器；训练第一人称视频编码器；对Ego‑Exo4D数据集进行筛选、扩展，构建预训练数据集Ego‑ExoClip，并进一步训练第三人称编码器；构建映射函数，学习第三人称数据和第一人称数据之间的变换关系；通过跨视角特征融合策略，将第一人称视频特征与估计的第三人称特征在多模态公共空间中深度融合，生成统一的多模态视频语义特征表示，结合用户输入的问题与融合后的多模态视频特征，生成答案回复。本发明通过任务统一化设计显著增强了模型在各种视频问答任务上的性能。

技术关键词

视频问答方法视频编码器视角文本生成答案融合策略语义特征视频特征提取问答技术样本大语言模型多层感知机问答系统指令数据分布互联网

系统为您推荐了相关专利信息

一种用于巡检机器人巡检的指针式仪表识别方法

巡检机器人刻度仪表表盘仪表指针文本检测模型

图像畸变矫正方法、装置、车辆、介质及程序产品

图像畸变矫正方法投影装置视角车辆风挡玻璃矫正模型

农业领域大语言模型训练方法、设备及介质

大语言模型农业数据解码器多头注意力机制

一种测试信息处理方法、集成测试装置、介质及控制器

测试信息处理方法集成测试装置数据处理模型自然语言逻辑

一种基于增强提示学习与图扩散策略的虚假新闻检测方法

节点特征邻居 BERT模型策略文本

基于跨视角语义对齐的第一人称视频问答方法及系统

站点导航

APP 下载