一种零资源小语种语言数据生成及小语种资源库建设方法、装置及介质

AITNT
正文
推荐专利
一种零资源小语种语言数据生成及小语种资源库建设方法、装置及介质
申请号:CN202510070770
申请日期:2025-01-16
公开号:CN119848610A
公开日期:2025-04-18
类型:发明专利
摘要
本发明属于人工智能技术领域,提供了一种零资源小语种语言数据生成及小语种资源库建设方法、装置及介质。本发明包括步骤S1:基于现有渠道获取零资源小语种语言数据,包括文本数据和语音数据;步骤S2:对获取的零资源小语种语言数据进行数据扩充,获得原始语料数据;步骤S3:对原始语料数据进行数据清洗和标注,获得处理后的语料数据;步骤S4:将处理后的语料数据进行分类、组织,构建多样化的小语种资源库。根据本发明,通过语料数据收集、数据扩充生成原始语料数据,并将处理后的语料数据进行分类、组织,构建多样化的小语种资源库,解决零资源小语种语料数据缺乏、语料数据清洗复杂、标注困难等问题。
技术关键词
资源库 数据 文本 语音 建设装置 动态时间规整方法 字幕提取方法 听觉掩蔽效应 动态时间规整算法 音频 机器翻译方法 词典 同义词 掩蔽方法 存储计算机程序 词频统计 人工智能技术 存储器 混合方法
系统为您推荐了相关专利信息
1
一种执行内核态命令的方法、装置、系统及存储介质
虚拟文件系统 命令 内核态 多元组 描述符
2
一种食品颜色变化的实时监测与分析方法和系统
食品成分分析技术 颜色 食品保质期限 新鲜度 灰色预测模型
3
一种基于改进蚁群算法的骨科术后康复节点预测方法
运动能力评估 骨科术后康复 肢体功能恢复 蚁群算法 节点
4
基于ETC的高速公路道路中断识别与精准告警方法
告警方法 路段 OBU系统 数据处理中心 高速公路情报板
5
一种校园配送智能无人车辆
车辆 校园 数据 建筑 节点
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号