视频语言模型的训练方法以及人体交互行为识别方法

AITNT
正文
推荐专利
视频语言模型的训练方法以及人体交互行为识别方法
申请号:CN202510351776
申请日期:2025-03-24
公开号:CN120472359A
公开日期:2025-08-12
类型:发明专利
摘要
本申请提供了一种视频语言模型的训练方法以及人体交互行为识别方法,涉及计算机视觉识别技术领域,包括:获取视频样本以及视频样本中针对人体交互行为的动作描述文本数据;确定视频样本对应的第一视频特征和第一物体位置特征;基于第一视频特征和第一物体位置特征确定L层多头自注意力块中每层多头自注意力块输出的视觉联合特征;基于动作描述文本数据和视觉联合特征,确定L层多模态细化学习模块中最后一层多模态细化学习模块输出的视觉表示、文本表示以及多模态表示,基于视觉表示、文本表示以及多模态表示,更新视频语言模型的模型参数,直至得到训练完成的目标视频语言模型。本申请可提高人体交互行为识别的精准度。
技术关键词
注意力 多模态 文本 视频特征提取 特征提取网络 视觉 物体特征提取 人体 空间特征提取 样本 识别方法 跨模态 数据 特征提取模块 训练装置 图谱
系统为您推荐了相关专利信息
1
基于多模态数据融合的智能运维工单处理方法、装置、设备及介质
多模态数据融合 运维工单 网络拓扑数据 非结构化日志 训练语言模型
2
输电通道树障隐患检测模型训练方法与检测方法
通道 卷积模块 组合模块 检测模型训练方法 特征提取模块
3
金融领域应用系统的可视化构建方法、装置、计算机设备、可读存储介质
子组件 可视化构建方法 编辑 画布 表单
4
基于智能AI的课堂培训学习质量评估系统
评估系统 数据采集模块 多模态 识别模块 视频监控单元
5
一种基于人工智能的语音识别管理系统
语音识别管理系统 语句 分析单元 关键字 夹角度数
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号