摘要
本发明公开了一种基于人体肢体技能操作视频的内容标注方法、装置、计算机设备及可读存储介质,包括:首先获取并预处理多路视频流媒体数据,提取视频关键帧、视觉及声学特征。随后,通过匹配识别操作生成视频和音频评价结果数据,并据此确定操作要点和操作单元的视频片段定位。利用预训练的内容标签库进行标签标注,生成待定标签标注结果。待审核通过后,该结果将作为最终的目标标注结果。如此设计,提高了标注精度和效率,为人体肢体技能操作的准确评估提供了有力支持。
技术关键词
声学特征
内容标注方法
视觉特征
音频
视频特征数据
标签
视频流
计算机设备
关键帧内容
文本
人体
媒体
自动语音识别技术
偏移特征
MFCC算法
系统为您推荐了相关专利信息
健康监测设备
内容推荐方法
显示信息
场景
电子设备
密封电子元器件多余物
模型构建方法
分类器
信息载体
声谱
环境分析方法
视觉特征
多模态
计算机设备
动作识别模型