一种藏文音节校对标注数据集构建方法

AITNT
正文
推荐专利
一种藏文音节校对标注数据集构建方法
申请号:CN202410742746
申请日期:2024-06-11
公开号:CN119089872A
公开日期:2024-12-06
类型:发明专利
摘要
本发明公开了一种藏文音节校对标注数据集构建方法,包括确定文本的错误类型、构建混淆集和加噪算法,所述错误类型包括拼写错误和真字错误;所述构建混淆集包括:构建拼写错误音节混淆集、构建形近音节混淆集、构建音似音节混淆集、构建动词时态混淆集,构建易错虚词混淆集,并构建不同音节的混淆集;所述加噪算法包括与混淆集相匹配的联合加噪算法,用于利用混淆集保留原音节与替换音节之间的语言信息关联。本发明涉及语言学习技术领域;该藏文音节校对标注数据集构建方法,通过算法和数据集的建立,计算机通过算法可以实现上千人的数据标注工作几分钟就完成,节省了大量的人力资源,还节约了时间,避免了人工标注容易产生错误的情况。
技术关键词
数据集构建方法 识别算法 语言学习技术 代表 基础 形态 元素 超参数 文本 动态 词语 字母 思路 样式 字符 语义 语音 计算机
系统为您推荐了相关专利信息
1
一种基于订单浇铸宽度归并的宽度选择方法及系统
订单 整数规划模型 多项式算法 信息模块 子模块
2
一种有源低压配网户变关系预测方法
关系预测方法 序列 SSA算法 网络 低压
3
一种光储直柔系统调控评估方法及系统
深度强化学习算法 充放电功率 最小化系统 储能系统 排放量
4
一种基于改进YOLOv7的字符检测模型及方法
字符检测模型 字符检测方法 集成电路外观 残差结构 光学字符识别技术
5
一种交互式语音编辑与合成系统
交互式语音 语音识别模块 文本 语音识别技术 协作编辑
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号