一种基于多模态大语言模型的弱监督时序动作定位方法

正文

推荐专利

申请号：CN202510981116

申请日期：2025-07-16

公开号：CN120877183A

公开日期：2025-10-31

类型：发明专利

摘要

一种基于多模态大语言模型(MLLM)的弱监督时序动作定位方法，包括：关键语义匹配模块利用MLLM生成的关键语义先验信息与视频片段匹配，定位动作时间区间；完整语义重构模块借助MLLM生成的完整语义先验信息重构动作描述，增强对时序区间的理解；双先验互动蒸馏策略通过相互蒸馏优化两模块协作，减少定位误差；训练时联合优化定位损失与重构损失，推理时直接使用训练好的模块，避免调用高计算开销的MLLM。本发明的方法有效解决现有弱监督方法中不完整定位和过度定位问题。实验结果表明，该方法在多个数据集上表现出先进性能，有效提升了弱监督时序动作定位的准确性和完整性，为长视频分析场景提供高鲁棒性解决方案。

技术关键词

动作定位方法大语言模型重构模块匹配模块语义先验时序蒸馏视频动作定位系统融合时空特征弱监督方法焦点损失函数损失函数优化 RGB特征注意力多模态特征生成动作

系统为您推荐了相关专利信息

多模态数据集的构建方法、装置及存储介质

数据集构建方法图片多模态音频非暂态计算机可读存储介质

多阶问题问答方法、系统及装置

大语言模型问答方法阶段数据计算机可执行指令

训练样本的处理方法和深度学习模型的训练方法、装置

文本深度学习模型样本大语言模型子模块

一种用于水质净化的功能微生物菌群开发多智能体系统

微生物菌剂功能微生物菌群水质多智能体系统大语言模型

行为动作交互方法、装置、电子设备和计算机可读介质

肌肉电信号触感电控装置音效动作交互

一种基于多模态大语言模型的弱监督时序动作定位方法

站点导航

APP 下载