一种句子级中文普通话视音频多模态数据集构建方法

正文

推荐专利

申请号：CN202510267094

申请日期：2025-03-07

公开号：CN120216750A

公开日期：2025-06-27

类型：发明专利

摘要

本发明公开了一种句子级中文普通话视音频多模态数据集构建方法，一方面提出了多源数据采集方法，通过拓宽数据来源渠道，增加数据的多样性和丰富性，不仅解决了现有数据集规模较小和场景单一的问题，还为模型训练提供了更加广泛和均衡的数据支持，另一方面针对多来源的音视频数据，提出了标准化数据处理流程，实现了数据切割、校对和存储的高效自动化，提升了数据处理效率，确保了数据的规范性和准确性。另外，本发明实现了对数据集内数据精细化管理，通过设计多维度标签体系和数据管理系统，对数据集进行了科学分类，便于数据的查找、分析和使用，实现了对数据全生命周期的有效管控。

技术关键词

数据录制装置录像设备视频多通道环形补光灯录音设备语音活动检测数据集构建方法视音频人脸位置 MTCNN算法多模态数据管理系统场景多任务级联卷积神经网络文本众包平台

一种句子级中文普通话视音频多模态数据集构建方法

站点导航

APP 下载