摘要
本发明公开大模型驱动的时空特征与文本增强少样本动作捕捉方法,属于动作捕捉技术领域,用于视频动作捕捉,包括获取视频数据并进行预处理,所述视频数据包括待进行动作捕捉的查询视频数据和带有动作标签的支持集视频数据,将预处理后的视频数据输入视觉编码器中,得到视频数据的视觉特征;综合两次类别概率分布,得出查询视频数据的动作捕捉结果。本发明通过时序增强适配器和时空融合适配器实现高效时空特征提取,增强了视频特征的时空建模能力;利用多层次注意力机制,提升了文本与视频特征的融合能力,构建了具有强泛化能力的类原型;在少样本学习任务中显著提升了模型的捕捉准确率,可训练参数量少,降低了计算成本。
技术关键词
动作捕捉方法
视觉特征
视频
适配器
数据
原型
前馈神经网络
样本
动作捕捉技术
文本编码器
时序
多层感知器
标签
注意力机制
超参数
多层次
上采样
模块
系统为您推荐了相关专利信息
高精度电流检测
多参数传感器
信号隔离电路
数据储存器
监控传感器
MQTT消息
交互系统
云端
物联网设备
访问控制模块