一种藏文音节校对标注数据集构建方法

正文

推荐专利

一种藏文音节校对标注数据集构建方法

申请号：CN202410742746

申请日期：2024-06-11

公开号：CN119089872A

公开日期：2024-12-06

类型：发明专利

摘要

本发明公开了一种藏文音节校对标注数据集构建方法，包括确定文本的错误类型、构建混淆集和加噪算法，所述错误类型包括拼写错误和真字错误；所述构建混淆集包括：构建拼写错误音节混淆集、构建形近音节混淆集、构建音似音节混淆集、构建动词时态混淆集，构建易错虚词混淆集，并构建不同音节的混淆集；所述加噪算法包括与混淆集相匹配的联合加噪算法，用于利用混淆集保留原音节与替换音节之间的语言信息关联。本发明涉及语言学习技术领域；该藏文音节校对标注数据集构建方法，通过算法和数据集的建立，计算机通过算法可以实现上千人的数据标注工作几分钟就完成，节省了大量的人力资源，还节约了时间，避免了人工标注容易产生错误的情况。

技术关键词

数据集构建方法识别算法语言学习技术代表基础形态元素超参数文本动态词语字母思路样式字符语义语音计算机

系统为您推荐了相关专利信息

一种基于订单浇铸宽度归并的宽度选择方法及系统

订单整数规划模型多项式算法信息模块子模块

一种有源低压配网户变关系预测方法

关系预测方法序列 SSA算法网络低压

一种光储直柔系统调控评估方法及系统

深度强化学习算法充放电功率最小化系统储能系统排放量

一种基于改进YOLOv7的字符检测模型及方法

字符检测模型字符检测方法集成电路外观残差结构光学字符识别技术

一种交互式语音编辑与合成系统

交互式语音语音识别模块文本语音识别技术协作编辑

一种藏文音节校对标注数据集构建方法

站点导航

APP 下载