摘要
本发明公开了一种视频理解的细粒度基准数据集构建方法和系统,涉及数据集构建技术领域,包括:对原始视频数据预处理生成多个人物视频片段,并确定各人物视频片段的人物标注信息;根据明确型任务从各人物视频片段选取明确型问题视频片段,采用关联的人物标注信息构建为明确型选择题;根据描述型任务从各人物视频片段选取描述型问题视频片段,结合多个多模态大语言模型生成描述型选择题;若各人工验证答案与对应的明确型答案项或描述型答案项匹配,则采用各明确型选择题和各描述型选择题构建人类行为视频基准数据集。通过半自动化技术生成细粒度的关于人类行为的视频理解基准数据集,有助于提升基准数据集可靠性。
技术关键词
数据集构建方法
视频
答案
基准
人物特征
数据集构建系统
音频
半自动化技术
大语言模型
人脸
多模态
语音识别模型
处理器
人类
序列
人体
计算机程序产品
指令
系统为您推荐了相关专利信息
视频监控管理方法
视频监控管理系统
视频分析
地图可视化技术
特征点集合
智能监管系统
智能分析模块
人影作业
视频监控模块
视频交换机
动态修正方法
电池健康状态
时序特征
节点
锂电池
审核管理系统
深度学习分类
关键帧
多模态
隐马尔可夫模型