视频语言模型的训练方法以及人体交互行为识别方法

正文

推荐专利

申请号：CN202510351776

申请日期：2025-03-24

公开号：CN120472359A

公开日期：2025-08-12

类型：发明专利

摘要

本申请提供了一种视频语言模型的训练方法以及人体交互行为识别方法，涉及计算机视觉识别技术领域，包括：获取视频样本以及视频样本中针对人体交互行为的动作描述文本数据；确定视频样本对应的第一视频特征和第一物体位置特征；基于第一视频特征和第一物体位置特征确定L层多头自注意力块中每层多头自注意力块输出的视觉联合特征；基于动作描述文本数据和视觉联合特征，确定L层多模态细化学习模块中最后一层多模态细化学习模块输出的视觉表示、文本表示以及多模态表示，基于视觉表示、文本表示以及多模态表示，更新视频语言模型的模型参数，直至得到训练完成的目标视频语言模型。本申请可提高人体交互行为识别的精准度。

技术关键词

注意力多模态文本视频特征提取特征提取网络视觉物体特征提取人体空间特征提取样本识别方法跨模态数据特征提取模块训练装置图谱

系统为您推荐了相关专利信息

基于多模态数据融合的智能运维工单处理方法、装置、设备及介质

多模态数据融合运维工单网络拓扑数据非结构化日志训练语言模型

输电通道树障隐患检测模型训练方法与检测方法

通道卷积模块组合模块检测模型训练方法特征提取模块

金融领域应用系统的可视化构建方法、装置、计算机设备、可读存储介质

子组件可视化构建方法编辑画布表单

基于智能AI的课堂培训学习质量评估系统

评估系统数据采集模块多模态识别模块视频监控单元

一种基于人工智能的语音识别管理系统

语音识别管理系统语句分析单元关键字夹角度数

视频语言模型的训练方法以及人体交互行为识别方法

站点导航

APP 下载