基于双文本提示的细粒度视频行为识别方法

AITNT
正文
推荐专利
基于双文本提示的细粒度视频行为识别方法
申请号:CN202510287139
申请日期:2025-03-12
公开号:CN120126217B
公开日期:2025-11-14
类型:发明专利
摘要
本发明属于计算机视觉及图像处理领域,涉及采用深度卷积神经网络对视频分帧后的图片序列进行细粒度的动作分类,具体涉及基于双文本提示的细粒度视频行为识别方法。本发明程序简单,易于实现,能够获得能够识别人体细粒度的动作,对于人体的细粒度动作,可以通过大语言模型将文本描述进行不同细粒度的划分,之后将生成的文本特征向量与不同时间尺度的视频特征做交叉注意力机制的响应,可以更好的发现视频中人体运动的独特细节,从而更准确地推理细粒度动作。
技术关键词
交叉注意力机制 语义 识别方法 动态 大语言模型 文本编码器 视频编码器 多尺度 模块 深度卷积神经网络 彩色图像 文本特征向量 标签 全局平均池化 数据 识别人体
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号