基于多模态大模型框架的多阶段零样本视频动作定位方法

AITNT
正文
推荐专利
基于多模态大模型框架的多阶段零样本视频动作定位方法
申请号:CN202510706659
申请日期:2025-05-29
公开号:CN120748033A
公开日期:2025-10-03
类型:发明专利
摘要
本发明涉及视频理解技术领域,具体公开一种基于多模态大模型框架的多阶段零样本视频动作定位方法,包括:利用多模态大语言模型,获取待测视频的候选视频动作类别及其对应的多个关键动作阶段;针对任一候选视频动作类别,获取待测视频的视频帧在每个关键动作阶段的置信度,根据最高置信度大于阈值的视频帧,构建候选时间片段并进行合并,得到该候选视频动作类别对应的定位结果,直至得到每个候选视频动作类别对应的定位结果。本发明通过引入多模态大模型,利用图文语义对齐和相似度计算机制,结合帧级置信度评分,实现对视频中动作类别的判别与时序位置的标注,摆脱对人工标注数据的依赖,提高动作定位准确率与在多动作复杂场景下的稳定性。
技术关键词
动作定位方法 多模态 大语言模型 动作定位系统 阶段 视频帧 样本 框架 置信度阈值 可读存储介质 文本 理解技术 电子设备 计算机 处理器 模块 存储器 图文 语义
系统为您推荐了相关专利信息
1
一种锯链刀片限位角度自动优化方法及其系统
锯链刀片 自动优化方法 列表 模糊推理 模糊隶属度
2
代码分析方法、电子设备、存储介质及程序产品
代码分析方法 异常信息 关键词 大语言模型 索引
3
一种基于企业级操作系统的服装数据处理方法及设备
服装 数据处理方法 企业级 预训练模型 操作系统
4
一种基于自动工况标定与多维信号分析的设备状态监测方法及系统
设备状态监测方法 信号分析 工况 工业设备状态监测 设备状态监测系统
5
面向增强维修的现场操作解析方法、装置、设备、介质及产品
解析方法 视觉 微调方法 设备状态数据 多模态
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号