基于多模态动态提示与时空稀疏化的视频动作定位方法

AITNT
正文
推荐专利
基于多模态动态提示与时空稀疏化的视频动作定位方法
申请号:CN202510356816
申请日期:2025-03-25
公开号:CN120412070B
公开日期:2026-01-02
类型:发明专利
摘要
本发明涉及视频理解技术领域,具体公开一种基于多模态动态提示与时空稀疏化的视频动作定位方法,该方法包括:利用预设深度学习模型的多模态动态提示生成器,生成全局特征向量与提示向量,利用预设深度学习模型的空间剪枝模块,得到时空稀疏化的时序聚合特征并压缩得到目标视频特征;利用预设深度学习模型中的自注意力模块与双向LSTM网络,并结合每个样本视频的目标视频特征与动作类别标签数据,对预设深度学习模型进行迭代训练,得到视频动作定位模型,并将待测视频输入至视频动作定位模型,得到动作定位结果。本发明在提升语义表达与模态对齐能力的同时,还能满足视频动作定位的实时性需求,并大幅提高视频动作定位的准确性。
技术关键词
视频 深度学习模型 动作定位方法 多模态 文本特征向量 样本 特征提取模型 文本编码器 多层感知器 动作定位系统 时序 动态 注意力 标签 全局平均池化 可读存储介质 数据 模块 理解技术 电子设备
系统为您推荐了相关专利信息
1
基于人工智能实现社区垃圾的智能分类方法及系统
垃圾分类设备 智能分类方法 高维特征向量 多模态 深度残差
2
基于动态传播社交图的多模态虚假新闻检测方法
邻居 节点 多模态 帖子 融合特征
3
一种基于机器学习的核电安全评估方法及系统
时间卷积网络 样本 多源异构数据 原型 多模态特征
4
一种基于区块链和人工智能的实验室审计方法及系统
审计方法 动态预约系统 三维空间地图 审计日志 审计系统
5
一种用于开放性词汇点云可供性检测的多模式基础模型
检测模型训练方法 内核 模块 融合多模态信息 3D点云数据
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号