一种基于大模型的错误类型感知的越南语语法纠错语料构建方法

AITNT
正文
推荐专利
一种基于大模型的错误类型感知的越南语语法纠错语料构建方法
申请号:CN202510525046
申请日期:2025-04-24
公开号:CN120449869A
公开日期:2025-08-08
类型:发明专利
摘要
本发明涉及一种基于大模型的错误类型感知的越南语语法纠错语料构建方法,属自然语言处理领域。本发明首先运用语音识别模型模拟真实场景中的越南语语法错误,生成初步的纠错数据集,随后通过深度分析该数据集中典型错误的分布规律与语法结构特征,针对性设计出融合错误类型特征的链式思维提示(CoT)机制,引导大型语言模型(LLM)批量生成包含预定语法错误的合成语句;接着,为增强语料质量,同步实施网络爬虫采集原生越南语文本,经过多层过滤与清洗构建纯净单语语料库;最后,生成的合成数据需要经过严格的验证和处理,以确保其错误类型与预设目标一致,并通过两阶段微调的方式强化预训练模型范式和大模型范式从而有效提升语法纠错模型的泛化能力,以解决越南语语法纠错语料匮乏的问题。
技术关键词
语料构建方法 纠错 大语言模型 数据 预训练模型 非暂态计算机可读存储介质 标注工具 网络爬虫技术 语音识别模型 语句 文本 两阶段 处理器 样本 基础 语法结构 计算机程序产品 构建系统 统计特征
系统为您推荐了相关专利信息
1
一种基于深度学习的口腔全景片图像分割以辅助诊断骨质疏松的方法及系统
诊断骨质疏松 深度学习模型 图像数据预处理 深度学习图像 标定工具
2
基于分频算法的发电机组上机架松动故障诊断方法及系统
松动故障诊断 分析振动数据 工作水头 发电机组运行参数 机架
3
基于LSTM的卫星观测质量多指标融合判断方法及系统
GNSS卫星 多指标 判断方法 无监督机器学习 LSTM神经网络
4
一种基于双向长短期记忆网络与多源数据融合的流域降雨径流预测方法及系统
双向长短期记忆网络 径流预测方法 预训练模型 降雨径流预测技术 注意力
5
兼容多抽水蓄能电站的仿真测试方法、计算机装置
半监督学习模型 抽水蓄能电站 仿真测试方法 无监督学习 仿真模型
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号