一种基于迭代优化的老挝语语法纠错训练数据构建方法、系统

AITNT
正文
推荐专利
一种基于迭代优化的老挝语语法纠错训练数据构建方法、系统
申请号:CN202510347039
申请日期:2025-03-24
公开号:CN120181075A
公开日期:2025-06-20
类型:发明专利
摘要
本发明涉及一种基于迭代优化的老挝语语法纠错训练数据构建方法、系统,属自然语言处理领域。包括:利用预训练语言模型对初始语料进行初始语法纠错预测,对初始预测结果中的残留错误进行统计分析,基于常见错误类型和分布的统计数据,利用规则方法或大模型自动生成覆盖特定错误类型的新句子,用于扩充语法纠错训练数据集;将扩充后的数据与原始语料融合并进行质量评估;利用质量评估后的训练数据集重新训练预训练语言模型,进一步优化纠错预训练语言模型,筛选出覆盖多种错误分布的高质量老挝语语法纠错训练数据集。本发明动态生成覆盖广泛错误分布的老挝语语法纠错数据,有效提升了语法纠错模型的性能,解决了老挝语语法纠错训练数据稀缺的问题。
技术关键词
数据构建方法 纠错 预训练语言模型 规则方法 非暂态计算机可读存储介质 处理器 计算机程序产品 构建系统 自然语言 基础 存储器 电子设备 冗余 文本 动态 模块
系统为您推荐了相关专利信息
1
基于薄血膜的疟原虫类别识别方法和装置
分类识别模型 类别识别方法 无标签数据 无监督 蒸馏
2
图像压缩方法、装置、电子设备和存储介质
图像压缩方法 图像块 非暂态计算机可读存储介质 运动 视频
3
基于伪标签降噪策略的跨语言命名实体识别方法
命名实体识别方法 标签 语义向量空间 预训练语言模型 文本
4
一种同步磁阻电机无位置传感器控制方法和装置
同步磁阻电机 无位置传感器控制方法 无位置传感器矢量控制系统 UKF算法 预测误差
5
资源对比方法、装置、设备、存储介质及程序产品
实时图像 图像特征编码 实例分割模型 特征提取模型 样本
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号