一种基于多模态大语言模型的弱监督时序动作定位方法

AITNT
正文
推荐专利
一种基于多模态大语言模型的弱监督时序动作定位方法
申请号:CN202510981116
申请日期:2025-07-16
公开号:CN120877183A
公开日期:2025-10-31
类型:发明专利
摘要
一种基于多模态大语言模型(MLLM)的弱监督时序动作定位方法,包括:关键语义匹配模块利用MLLM生成的关键语义先验信息与视频片段匹配,定位动作时间区间;完整语义重构模块借助MLLM生成的完整语义先验信息重构动作描述,增强对时序区间的理解;双先验互动蒸馏策略通过相互蒸馏优化两模块协作,减少定位误差;训练时联合优化定位损失与重构损失,推理时直接使用训练好的模块,避免调用高计算开销的MLLM。本发明的方法有效解决现有弱监督方法中不完整定位和过度定位问题。实验结果表明,该方法在多个数据集上表现出先进性能,有效提升了弱监督时序动作定位的准确性和完整性,为长视频分析场景提供高鲁棒性解决方案。
技术关键词
动作定位方法 大语言模型 重构模块 匹配模块 语义先验 时序 蒸馏 视频 动作定位系统 融合时空特征 弱监督方法 焦点损失函数 损失函数优化 RGB特征 注意力 多模态特征 生成动作
系统为您推荐了相关专利信息
1
多模态数据集的构建方法、装置及存储介质
数据集构建方法 图片 多模态 音频 非暂态计算机可读存储介质
2
多阶问题问答方法、系统及装置
大语言模型 问答方法 阶段 数据 计算机可执行指令
3
训练样本的处理方法和深度学习模型的训练方法、装置
文本 深度学习模型 样本 大语言模型 子模块
4
一种用于水质净化的功能微生物菌群开发多智能体系统
微生物菌剂 功能微生物菌群 水质 多智能体系统 大语言模型
5
行为动作交互方法、装置、电子设备和计算机可读介质
肌肉电信号 触感 电控装置 音效 动作交互
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号