基于跨模态信息的开放场景时序动作检测方法、设备及介质

AITNT
正文
推荐专利
基于跨模态信息的开放场景时序动作检测方法、设备及介质
申请号:CN202510547268
申请日期:2025-04-28
公开号:CN120470435A
公开日期:2025-08-12
类型:发明专利
摘要
基于跨模态信息的开放场景时序动作检测方法、设备及介质,视频帧序列通过时空特征编码器和跨模态对齐视觉特征编码器,经特征融合得到具备时空细节和跨模态对齐信息的特征表示,再通过特征金字塔网络学习局部细节序列信息,最后通过区间回归头网络完成动作区间生成,同时在跨模态特征分类头中进行全局时序建模,基于视觉语言特征匹配和前景分数增强机制完成动作类别判定。本发明提出了一种引入跨模态信息的一阶段开放场景时序动作检测方法,简化了开放场景的时序动作检测方法流程,实现对新动作定位和分类能力的共同优化,提升模型在新类别上的检测表现,能够更好地适应现实中开放、动态且复杂多变的应用场景,具有实用性和泛化能力。
技术关键词
时序动作检测方法 跨模态 视觉特征 文本编码器 图像编码器 场景 计算机可执行程序 模态特征 特征金字塔网络 预训练方法 视频编码器 视频帧 多层感知机
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号