摘要
一种基于多模态大语言模型(MLLM)的弱监督时序动作定位方法,包括:关键语义匹配模块利用MLLM生成的关键语义先验信息与视频片段匹配,定位动作时间区间;完整语义重构模块借助MLLM生成的完整语义先验信息重构动作描述,增强对时序区间的理解;双先验互动蒸馏策略通过相互蒸馏优化两模块协作,减少定位误差;训练时联合优化定位损失与重构损失,推理时直接使用训练好的模块,避免调用高计算开销的MLLM。本发明的方法有效解决现有弱监督方法中不完整定位和过度定位问题。实验结果表明,该方法在多个数据集上表现出先进性能,有效提升了弱监督时序动作定位的准确性和完整性,为长视频分析场景提供高鲁棒性解决方案。
技术关键词
动作定位方法
大语言模型
重构模块
匹配模块
语义先验
时序
蒸馏
视频
动作定位系统
融合时空特征
弱监督方法
焦点损失函数
损失函数优化
RGB特征
注意力
多模态特征
生成动作
系统为您推荐了相关专利信息
数据集构建方法
图片
多模态
音频
非暂态计算机可读存储介质
大语言模型
问答方法
阶段
数据
计算机可执行指令
微生物菌剂
功能微生物菌群
水质
多智能体系统
大语言模型