摘要
本发明涉及基于跨视角语义对齐的第一人称视频问答方法及系统,属于视频问答技术领域,方法包括:收集并筛选第三人称视频‑文本配对数据,训练第三人称视频编码器;训练第一人称视频编码器;对Ego‑Exo4D数据集进行筛选、扩展,构建预训练数据集Ego‑ExoClip,并进一步训练第三人称编码器;构建映射函数,学习第三人称数据和第一人称数据之间的变换关系;通过跨视角特征融合策略,将第一人称视频特征与估计的第三人称特征在多模态公共空间中深度融合,生成统一的多模态视频语义特征表示,结合用户输入的问题与融合后的多模态视频特征,生成答案回复。本发明通过任务统一化设计显著增强了模型在各种视频问答任务上的性能。
技术关键词
视频问答方法
视频编码器
视角
文本
生成答案
融合策略
语义特征
视频特征提取
问答技术
样本
大语言模型
多层感知机
问答系统
指令
数据分布
互联网
系统为您推荐了相关专利信息
巡检机器人
刻度
仪表表盘
仪表指针
文本检测模型
图像畸变矫正方法
投影装置
视角
车辆风挡玻璃
矫正模型
测试信息处理方法
集成测试装置
数据处理模型
自然语言
逻辑