基于问题理解和时序引导的视频问答方法及系统

正文

推荐专利

申请号：CN202510632031

申请日期：2025-05-16

公开号：CN120561235A

公开日期：2025-08-29

类型：发明专利

摘要

本发明公开基于问题理解和时序引导的视频问答方法及系统，属于视频问答技术领域；方法包括：用视频编码器从原始视频中提取视频特征，使用文本编码器从给定问题和候选答案中提取问题‑答案特征；通过负样本筛选策略构建负样本问题，并使用负样本问题训练视频问答模型；对视频类型进行划分，通过时序扰乱方法构建负样本视频，并使用负样本视频训练视频问答模型；将视频、问题和候选答案输入训练好的视频问答模型，预测答案；视频问答模型包括：视频编码器、文本编码器，以及一个包含自注意力层、交叉注意力层和前向传播层的跨模态特征提取器，跨模态特征提取器将问题‑答案特征作为查询向量，将视频特征作为键值向量进行跨模态交互。

技术关键词

视频问答方法问答模型答案文本编码器视频编码器时序扰乱方法样本跨模态特征提取器注意力融合特征问答技术通信接口键值计算机存储介质特征提取模块问答系统分类器

系统为您推荐了相关专利信息

一种车机语音响应方法、装置、设备及产品

语音响应方法问答模型深度学习模型文本车机

一种人工智能理解与生成能力的评测计算方法

计算方法评测方法文本理解测试工具图文

一种文本监督对比学习的红外与可见光图像融合方法

可见光图像融合方法滑动窗口语义特征交叉模块

数据处理方法、计算设备、存储介质及计算机程序产品

问答模型答案数据处理方法计算机程序产品思维导图形式

一种基于分布式传感器网络的智能行为识别方法及系统

分布式传感器网络特征提取模型识别方法对齐模块多模态传感器

基于问题理解和时序引导的视频问答方法及系统

站点导航

APP 下载