基于多模态大模型框架的多阶段零样本视频动作定位方法

正文

推荐专利

申请号：CN202510706659

申请日期：2025-05-29

公开号：CN120748033A

公开日期：2025-10-03

类型：发明专利

摘要

本发明涉及视频理解技术领域，具体公开一种基于多模态大模型框架的多阶段零样本视频动作定位方法，包括：利用多模态大语言模型，获取待测视频的候选视频动作类别及其对应的多个关键动作阶段；针对任一候选视频动作类别，获取待测视频的视频帧在每个关键动作阶段的置信度，根据最高置信度大于阈值的视频帧，构建候选时间片段并进行合并，得到该候选视频动作类别对应的定位结果，直至得到每个候选视频动作类别对应的定位结果。本发明通过引入多模态大模型，利用图文语义对齐和相似度计算机制，结合帧级置信度评分，实现对视频中动作类别的判别与时序位置的标注，摆脱对人工标注数据的依赖，提高动作定位准确率与在多动作复杂场景下的稳定性。

技术关键词

动作定位方法多模态大语言模型动作定位系统阶段视频帧样本框架置信度阈值可读存储介质文本理解技术电子设备计算机处理器模块存储器图文语义

系统为您推荐了相关专利信息

一种锯链刀片限位角度自动优化方法及其系统

锯链刀片自动优化方法列表模糊推理模糊隶属度

代码分析方法、电子设备、存储介质及程序产品

代码分析方法异常信息关键词大语言模型索引

一种基于企业级操作系统的服装数据处理方法及设备

服装数据处理方法企业级预训练模型操作系统

一种基于自动工况标定与多维信号分析的设备状态监测方法及系统

设备状态监测方法信号分析工况工业设备状态监测设备状态监测系统

面向增强维修的现场操作解析方法、装置、设备、介质及产品

解析方法视觉微调方法设备状态数据多模态

基于多模态大模型框架的多阶段零样本视频动作定位方法

站点导航

APP 下载