摘要
本发明公开了一种基于多模态大模型的课堂行为检测方法,具体包括:摄像头拍摄的视频文件作为输入数据,所述视频文件可以直接输入GroundingDINO进行目标检测,也可以先进行人脸识别,采用人脸识别InsightFace中的Sub‑Center ArcFace模型,识别到指定对象的人脸后可将人脸区域图像或目标框作为提示信息给到TrackAnything模型进行视频目标追踪,即在视频的每一帧中找到该对象的目标区域,接着将该区域单独送入GroundingDINO进行目标检测,判断是否是待检测行为目标。本发明可以得到每个人的行为检测结果,进而进行个体或群体的行为统计分析。
技术关键词
模板更新策略
人脸
多模态
图像特征提取
后处理技术
校正机制
视频
对象
特征提取模块
生成代表
计算机程序产品
视角
连续性
位置更新
动态
身份
框架
滑动窗口
系统为您推荐了相关专利信息
水质预测方法
智能决策支持
多模态卷积神经网络
多模态数据融合
特征工程
人体识别系统
超表面
人体识别方法
微多普勒
相位可编程
多模态数据采集
帕金森
多模态传感器
震颤
数据采集单元