摘要
本发明涉及一种基于大模型的错误类型感知的越南语语法纠错语料构建方法,属自然语言处理领域。本发明首先运用语音识别模型模拟真实场景中的越南语语法错误,生成初步的纠错数据集,随后通过深度分析该数据集中典型错误的分布规律与语法结构特征,针对性设计出融合错误类型特征的链式思维提示(CoT)机制,引导大型语言模型(LLM)批量生成包含预定语法错误的合成语句;接着,为增强语料质量,同步实施网络爬虫采集原生越南语文本,经过多层过滤与清洗构建纯净单语语料库;最后,生成的合成数据需要经过严格的验证和处理,以确保其错误类型与预设目标一致,并通过两阶段微调的方式强化预训练模型范式和大模型范式从而有效提升语法纠错模型的泛化能力,以解决越南语语法纠错语料匮乏的问题。
技术关键词
语料构建方法
纠错
大语言模型
数据
预训练模型
非暂态计算机可读存储介质
标注工具
网络爬虫技术
语音识别模型
语句
文本
两阶段
处理器
样本
基础
语法结构
计算机程序产品
构建系统
统计特征
系统为您推荐了相关专利信息
诊断骨质疏松
深度学习模型
图像数据预处理
深度学习图像
标定工具
松动故障诊断
分析振动数据
工作水头
发电机组运行参数
机架
GNSS卫星
多指标
判断方法
无监督机器学习
LSTM神经网络
双向长短期记忆网络
径流预测方法
预训练模型
降雨径流预测技术
注意力
半监督学习模型
抽水蓄能电站
仿真测试方法
无监督学习
仿真模型