摘要
本发明属于计算机视觉及图像处理领域,涉及采用深度卷积神经网络对视频分帧后的图片序列进行细粒度的动作分类,具体涉及基于双文本提示的细粒度视频行为识别方法。本发明程序简单,易于实现,能够获得能够识别人体细粒度的动作,对于人体的细粒度动作,可以通过大语言模型将文本描述进行不同细粒度的划分,之后将生成的文本特征向量与不同时间尺度的视频特征做交叉注意力机制的响应,可以更好的发现视频中人体运动的独特细节,从而更准确地推理细粒度动作。
技术关键词
交叉注意力机制
语义
识别方法
动态
大语言模型
文本编码器
视频编码器
多尺度
模块
深度卷积神经网络
彩色图像
文本特征向量
标签
全局平均池化
数据
识别人体