基于跨视角语义对齐的第一人称视频问答方法及系统

AITNT
正文
推荐专利
基于跨视角语义对齐的第一人称视频问答方法及系统
申请号:CN202510147029
申请日期:2025-02-11
公开号:CN119622024B
公开日期:2025-05-09
类型:发明专利
摘要
本发明涉及基于跨视角语义对齐的第一人称视频问答方法及系统,属于视频问答技术领域,方法包括:收集并筛选第三人称视频‑文本配对数据,训练第三人称视频编码器;训练第一人称视频编码器;对Ego‑Exo4D数据集进行筛选、扩展,构建预训练数据集Ego‑ExoClip,并进一步训练第三人称编码器;构建映射函数,学习第三人称数据和第一人称数据之间的变换关系;通过跨视角特征融合策略,将第一人称视频特征与估计的第三人称特征在多模态公共空间中深度融合,生成统一的多模态视频语义特征表示,结合用户输入的问题与融合后的多模态视频特征,生成答案回复。本发明通过任务统一化设计显著增强了模型在各种视频问答任务上的性能。
技术关键词
视频问答方法 视频编码器 视角 文本 生成答案 融合策略 语义特征 视频特征提取 问答技术 样本 大语言模型 多层感知机 问答系统 指令 数据分布 互联网
系统为您推荐了相关专利信息
1
一种用于巡检机器人巡检的指针式仪表识别方法
巡检机器人 刻度 仪表表盘 仪表指针 文本检测模型
2
图像畸变矫正方法、装置、车辆、介质及程序产品
图像畸变矫正方法 投影装置 视角 车辆风挡玻璃 矫正模型
3
农业领域大语言模型训练方法、设备及介质
大语言模型 农业 数据 解码器 多头注意力机制
4
一种测试信息处理方法、集成测试装置、介质及控制器
测试信息处理方法 集成测试装置 数据处理模型 自然语言 逻辑
5
一种基于增强提示学习与图扩散策略的虚假新闻检测方法
节点特征 邻居 BERT模型 策略 文本
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号