基于多模态动态提示与时空稀疏化的视频动作定位方法

正文

推荐专利

申请号：CN202510356816

申请日期：2025-03-25

公开号：CN120412070B

公开日期：2026-01-02

类型：发明专利

摘要

本发明涉及视频理解技术领域，具体公开一种基于多模态动态提示与时空稀疏化的视频动作定位方法，该方法包括：利用预设深度学习模型的多模态动态提示生成器，生成全局特征向量与提示向量，利用预设深度学习模型的空间剪枝模块，得到时空稀疏化的时序聚合特征并压缩得到目标视频特征；利用预设深度学习模型中的自注意力模块与双向LSTM网络，并结合每个样本视频的目标视频特征与动作类别标签数据，对预设深度学习模型进行迭代训练，得到视频动作定位模型，并将待测视频输入至视频动作定位模型，得到动作定位结果。本发明在提升语义表达与模态对齐能力的同时，还能满足视频动作定位的实时性需求，并大幅提高视频动作定位的准确性。

技术关键词

视频深度学习模型动作定位方法多模态文本特征向量样本特征提取模型文本编码器多层感知器动作定位系统时序动态注意力标签全局平均池化可读存储介质数据模块理解技术电子设备

系统为您推荐了相关专利信息

基于人工智能实现社区垃圾的智能分类方法及系统

垃圾分类设备智能分类方法高维特征向量多模态深度残差

基于动态传播社交图的多模态虚假新闻检测方法

邻居节点多模态帖子融合特征

一种基于机器学习的核电安全评估方法及系统

时间卷积网络样本多源异构数据原型多模态特征

一种基于区块链和人工智能的实验室审计方法及系统

审计方法动态预约系统三维空间地图审计日志审计系统

一种用于开放性词汇点云可供性检测的多模式基础模型

检测模型训练方法内核模块融合多模态信息 3D点云数据

基于多模态动态提示与时空稀疏化的视频动作定位方法

站点导航

APP 下载