摘要
本发明涉及一种双向域弥合的行为识别方法,包括:获取待识别RGB图像帧序列及其类别文本;将所述待识别RGB图像帧序列输入文本提示生成模块得到生成式文本;将所述待识别RGB图像帧序列及其类别文本和所述生成式文本输入行为识别模型,得到所述待识别视频的动作类别,所述行为识别模型包括:第一文本编码器模块、图像编码器模块、时序编码器模块、第二文本编码器模块、交互模块、融合模块和相似度计算模块。本发明能够有效缩小预训练模型与行为识别任务之间的域差距,从而显著提升CLIP模型在行为识别领域的适用性和性能。
技术关键词
文本编码器
识别方法
图像嵌入
编码器模块
图像编码器
运动主体
图像转换单元
序列
时序
卷积模块
关键词
融合特征
前馈神经网络
预训练模型
注意力机制
系统为您推荐了相关专利信息
时空图卷积神经网络
识别方法
关节特征
视频采集系统
神经网络建模技术
电力设备缺陷
数据标注方法
数据标注系统
跨模态
主动学习策略
生物有机肥
融合特征
跨模态
多模态信息
识别方法