摘要
本发明公开了一种句子级中文普通话视音频多模态数据集构建方法,一方面提出了多源数据采集方法,通过拓宽数据来源渠道,增加数据的多样性和丰富性,不仅解决了现有数据集规模较小和场景单一的问题,还为模型训练提供了更加广泛和均衡的数据支持,另一方面针对多来源的音视频数据,提出了标准化数据处理流程,实现了数据切割、校对和存储的高效自动化,提升了数据处理效率,确保了数据的规范性和准确性。另外,本发明实现了对数据集内数据精细化管理,通过设计多维度标签体系和数据管理系统,对数据集进行了科学分类,便于数据的查找、分析和使用,实现了对数据全生命周期的有效管控。
技术关键词
数据录制装置
录像设备
视频
多通道
环形补光灯
录音设备
语音活动检测
数据集构建方法
视音频
人脸位置
MTCNN算法
多模态
数据管理系统
场景
多任务级联卷积神经网络
文本
众包平台