摘要
本发明涉及一种基于迭代优化的老挝语语法纠错训练数据构建方法、系统,属自然语言处理领域。包括:利用预训练语言模型对初始语料进行初始语法纠错预测,对初始预测结果中的残留错误进行统计分析,基于常见错误类型和分布的统计数据,利用规则方法或大模型自动生成覆盖特定错误类型的新句子,用于扩充语法纠错训练数据集;将扩充后的数据与原始语料融合并进行质量评估;利用质量评估后的训练数据集重新训练预训练语言模型,进一步优化纠错预训练语言模型,筛选出覆盖多种错误分布的高质量老挝语语法纠错训练数据集。本发明动态生成覆盖广泛错误分布的老挝语语法纠错数据,有效提升了语法纠错模型的性能,解决了老挝语语法纠错训练数据稀缺的问题。
技术关键词
数据构建方法
纠错
预训练语言模型
规则方法
非暂态计算机可读存储介质
处理器
计算机程序产品
构建系统
自然语言
基础
存储器
电子设备
冗余
文本
动态
模块
系统为您推荐了相关专利信息
分类识别模型
类别识别方法
无标签数据
无监督
蒸馏
图像压缩方法
图像块
非暂态计算机可读存储介质
运动
视频
命名实体识别方法
标签
语义向量空间
预训练语言模型
文本
同步磁阻电机
无位置传感器控制方法
无位置传感器矢量控制系统
UKF算法
预测误差
实时图像
图像特征编码
实例分割模型
特征提取模型
样本