基于双文本提示的细粒度视频行为识别方法

正文

推荐专利

基于双文本提示的细粒度视频行为识别方法

申请号：CN202510287139

申请日期：2025-03-12

公开号：CN120126217B

公开日期：2025-11-14

类型：发明专利

摘要

本发明属于计算机视觉及图像处理领域，涉及采用深度卷积神经网络对视频分帧后的图片序列进行细粒度的动作分类，具体涉及基于双文本提示的细粒度视频行为识别方法。本发明程序简单，易于实现，能够获得能够识别人体细粒度的动作，对于人体的细粒度动作，可以通过大语言模型将文本描述进行不同细粒度的划分，之后将生成的文本特征向量与不同时间尺度的视频特征做交叉注意力机制的响应，可以更好的发现视频中人体运动的独特细节，从而更准确地推理细粒度动作。

技术关键词

交叉注意力机制语义识别方法动态大语言模型文本编码器视频编码器多尺度模块深度卷积神经网络彩色图像文本特征向量标签全局平均池化数据识别人体

基于双文本提示的细粒度视频行为识别方法

站点导航

APP 下载