一种基于多模态融合的自然语言视频时刻检索方法

AITNT
正文
推荐专利
一种基于多模态融合的自然语言视频时刻检索方法
申请号:CN202511508968
申请日期:2025-10-22
公开号:CN120994873A
公开日期:2025-11-21
类型:发明专利
摘要
本发明公开了一种基于多模态融合的自然语言视频时刻检索方法,属于数据识别技术领域,包括步骤:获取用于自然语言视频时刻定位的数据集;构造一通道感知的多尺度时序建模模块MD1;获取一文本编码器;构造一多头解耦式跨模态特征融合模块MD2,构造语义调制门控卷积模块MD3;基于MD1、MD2、文本编码器、MD3构造自然语言时刻检索网络并训练为自然语言时刻检索模型;用于待测视频的自然语言时刻检测。本发明通过MD1能显著增强与查询语义相关的视觉特征响应,通过MD2在多个语义子空间实现跨模态细粒度整合,通过MD3确保候选片段评分高度依赖查询语义,能显著提升定位精度与鲁棒性。
技术关键词
自然语言 检索方法 文本编码器 视频 多模态 注意力 卷积模块 模态特征 矩阵 语义 数据识别技术 时序特征 通道 输出特征 融合特征 全局平均池化 动态门控 网络
系统为您推荐了相关专利信息
1
一种基于分布式存储的档案管理系统
智慧校园 档案管理系统 视频特征数据 连续性 关键帧
2
一种基于大语言模型的多语言通用词性识别方法及系统
大语言模型 识别方法 JSON格式数据 句法依存关系 文本
3
网络音视频实时检测的人工智能治理方法和机器人
音视频 人工智能机器人 时间段 动态地 处理器
4
播放视频的方法、相关装置及计算机程序产品
视频 令牌 计算机程序产品 对称加密算法 计算机程序指令
5
一种多模态情感数字虚拟人实时交互方法及系统
情感特征 多模态 语音 文本 交互方法
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号