摘要
本发明公开了一种藏文音节校对标注数据集构建方法,包括确定文本的错误类型、构建混淆集和加噪算法,所述错误类型包括拼写错误和真字错误;所述构建混淆集包括:构建拼写错误音节混淆集、构建形近音节混淆集、构建音似音节混淆集、构建动词时态混淆集,构建易错虚词混淆集,并构建不同音节的混淆集;所述加噪算法包括与混淆集相匹配的联合加噪算法,用于利用混淆集保留原音节与替换音节之间的语言信息关联。本发明涉及语言学习技术领域;该藏文音节校对标注数据集构建方法,通过算法和数据集的建立,计算机通过算法可以实现上千人的数据标注工作几分钟就完成,节省了大量的人力资源,还节约了时间,避免了人工标注容易产生错误的情况。
技术关键词
数据集构建方法
识别算法
语言学习技术
代表
基础
形态
元素
超参数
文本
动态
词语
字母
思路
样式
字符
语义
语音
计算机
系统为您推荐了相关专利信息
深度强化学习算法
充放电功率
最小化系统
储能系统
排放量
字符检测模型
字符检测方法
集成电路外观
残差结构
光学字符识别技术
交互式语音
语音识别模块
文本
语音识别技术
协作编辑