摘要
本发明属于人工智能技术领域,提供了一种零资源小语种语言数据生成及小语种资源库建设方法、装置及介质。本发明包括步骤S1:基于现有渠道获取零资源小语种语言数据,包括文本数据和语音数据;步骤S2:对获取的零资源小语种语言数据进行数据扩充,获得原始语料数据;步骤S3:对原始语料数据进行数据清洗和标注,获得处理后的语料数据;步骤S4:将处理后的语料数据进行分类、组织,构建多样化的小语种资源库。根据本发明,通过语料数据收集、数据扩充生成原始语料数据,并将处理后的语料数据进行分类、组织,构建多样化的小语种资源库,解决零资源小语种语料数据缺乏、语料数据清洗复杂、标注困难等问题。
技术关键词
资源库
数据
文本
语音
建设装置
动态时间规整方法
字幕提取方法
听觉掩蔽效应
动态时间规整算法
音频
机器翻译方法
词典
同义词
掩蔽方法
存储计算机程序
词频统计
人工智能技术
存储器
混合方法
系统为您推荐了相关专利信息
食品成分分析技术
颜色
食品保质期限
新鲜度
灰色预测模型
运动能力评估
骨科术后康复
肢体功能恢复
蚁群算法
节点
告警方法
路段
OBU系统
数据处理中心
高速公路情报板