一种基于大模型的错误类型感知的越南语语法纠错语料构建方法

正文

推荐专利

申请号：CN202510525046

申请日期：2025-04-24

公开号：CN120449869A

公开日期：2025-08-08

类型：发明专利

摘要

本发明涉及一种基于大模型的错误类型感知的越南语语法纠错语料构建方法，属自然语言处理领域。本发明首先运用语音识别模型模拟真实场景中的越南语语法错误，生成初步的纠错数据集，随后通过深度分析该数据集中典型错误的分布规律与语法结构特征，针对性设计出融合错误类型特征的链式思维提示(CoT)机制，引导大型语言模型(LLM)批量生成包含预定语法错误的合成语句；接着，为增强语料质量，同步实施网络爬虫采集原生越南语文本，经过多层过滤与清洗构建纯净单语语料库；最后，生成的合成数据需要经过严格的验证和处理，以确保其错误类型与预设目标一致，并通过两阶段微调的方式强化预训练模型范式和大模型范式从而有效提升语法纠错模型的泛化能力，以解决越南语语法纠错语料匮乏的问题。

技术关键词

语料构建方法纠错大语言模型数据预训练模型非暂态计算机可读存储介质标注工具网络爬虫技术语音识别模型语句文本两阶段处理器样本基础语法结构计算机程序产品构建系统统计特征

系统为您推荐了相关专利信息

一种基于深度学习的口腔全景片图像分割以辅助诊断骨质疏松的方法及系统

诊断骨质疏松深度学习模型图像数据预处理深度学习图像标定工具

基于分频算法的发电机组上机架松动故障诊断方法及系统

松动故障诊断分析振动数据工作水头发电机组运行参数机架

基于LSTM的卫星观测质量多指标融合判断方法及系统

GNSS卫星多指标判断方法无监督机器学习 LSTM神经网络

一种基于双向长短期记忆网络与多源数据融合的流域降雨径流预测方法及系统

双向长短期记忆网络径流预测方法预训练模型降雨径流预测技术注意力

兼容多抽水蓄能电站的仿真测试方法、计算机装置

半监督学习模型抽水蓄能电站仿真测试方法无监督学习仿真模型

一种基于大模型的错误类型感知的越南语语法纠错语料构建方法

站点导航

APP 下载