一种句子级中文普通话视音频多模态数据集构建方法

AITNT
正文
推荐专利
一种句子级中文普通话视音频多模态数据集构建方法
申请号:CN202510267094
申请日期:2025-03-07
公开号:CN120216750A
公开日期:2025-06-27
类型:发明专利
摘要
本发明公开了一种句子级中文普通话视音频多模态数据集构建方法,一方面提出了多源数据采集方法,通过拓宽数据来源渠道,增加数据的多样性和丰富性,不仅解决了现有数据集规模较小和场景单一的问题,还为模型训练提供了更加广泛和均衡的数据支持,另一方面针对多来源的音视频数据,提出了标准化数据处理流程,实现了数据切割、校对和存储的高效自动化,提升了数据处理效率,确保了数据的规范性和准确性。另外,本发明实现了对数据集内数据精细化管理,通过设计多维度标签体系和数据管理系统,对数据集进行了科学分类,便于数据的查找、分析和使用,实现了对数据全生命周期的有效管控。
技术关键词
数据录制装置 录像设备 视频 多通道 环形补光灯 录音设备 语音活动检测 数据集构建方法 视音频 人脸位置 MTCNN算法 多模态 数据管理系统 场景 多任务级联卷积神经网络 文本 众包平台
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号