摘要
本发明涉及视频理解技术领域,具体公开一种基于多模态大模型框架的多阶段零样本视频动作定位方法,包括:利用多模态大语言模型,获取待测视频的候选视频动作类别及其对应的多个关键动作阶段;针对任一候选视频动作类别,获取待测视频的视频帧在每个关键动作阶段的置信度,根据最高置信度大于阈值的视频帧,构建候选时间片段并进行合并,得到该候选视频动作类别对应的定位结果,直至得到每个候选视频动作类别对应的定位结果。本发明通过引入多模态大模型,利用图文语义对齐和相似度计算机制,结合帧级置信度评分,实现对视频中动作类别的判别与时序位置的标注,摆脱对人工标注数据的依赖,提高动作定位准确率与在多动作复杂场景下的稳定性。
技术关键词
动作定位方法
多模态
大语言模型
动作定位系统
阶段
视频帧
样本
框架
置信度阈值
可读存储介质
文本
理解技术
电子设备
计算机
处理器
模块
存储器
图文
语义
系统为您推荐了相关专利信息
锯链刀片
自动优化方法
列表
模糊推理
模糊隶属度
设备状态监测方法
信号分析
工况
工业设备状态监测
设备状态监测系统