一种基于迭代优化的老挝语语法纠错训练数据构建方法、系统

正文

推荐专利

申请号：CN202510347039

申请日期：2025-03-24

公开号：CN120181075A

公开日期：2025-06-20

类型：发明专利

摘要

本发明涉及一种基于迭代优化的老挝语语法纠错训练数据构建方法、系统，属自然语言处理领域。包括：利用预训练语言模型对初始语料进行初始语法纠错预测，对初始预测结果中的残留错误进行统计分析，基于常见错误类型和分布的统计数据，利用规则方法或大模型自动生成覆盖特定错误类型的新句子，用于扩充语法纠错训练数据集；将扩充后的数据与原始语料融合并进行质量评估；利用质量评估后的训练数据集重新训练预训练语言模型，进一步优化纠错预训练语言模型，筛选出覆盖多种错误分布的高质量老挝语语法纠错训练数据集。本发明动态生成覆盖广泛错误分布的老挝语语法纠错数据，有效提升了语法纠错模型的性能，解决了老挝语语法纠错训练数据稀缺的问题。

技术关键词

数据构建方法纠错预训练语言模型规则方法非暂态计算机可读存储介质处理器计算机程序产品构建系统自然语言基础存储器电子设备冗余文本动态模块

系统为您推荐了相关专利信息

基于薄血膜的疟原虫类别识别方法和装置

分类识别模型类别识别方法无标签数据无监督蒸馏

图像压缩方法、装置、电子设备和存储介质

图像压缩方法图像块非暂态计算机可读存储介质运动视频

基于伪标签降噪策略的跨语言命名实体识别方法

命名实体识别方法标签语义向量空间预训练语言模型文本

一种同步磁阻电机无位置传感器控制方法和装置

同步磁阻电机无位置传感器控制方法无位置传感器矢量控制系统 UKF算法预测误差

资源对比方法、装置、设备、存储介质及程序产品

实时图像图像特征编码实例分割模型特征提取模型样本

一种基于迭代优化的老挝语语法纠错训练数据构建方法、系统

站点导航

APP 下载