摘要
本发明公开了一种基于大语言模型检测和音素增强的越南语法纠错方法,属于自然语言处理技术领域。本发明首先使用多语言预训练模型mBART构建一个端到端的语法纠错基础模型,借助mBART强大的语言表征能力提升纠错效果;还设计了一个音素编码模块,旨在辅助纠错模型学习越南语的特有语言特性;进一步通过平均池化层提取包含越南语特征的音素信息,并确保其与文本信息表示在维度上的一致;随后,通过过滤门控机制将音素信息与文本信息融合,剔除音素信息中的干扰成分,以确保文本信息表示的准确性和可靠性;最后,在过滤门控机制之后添加一个错误检测层,通过精确识别错误,减少模型的过度校正现象,提升整体语法纠错的准确性和稳定性。
技术关键词
纠错方法
大语言模型
字典
基础
门控循环单元
编码模块
预训练模型
文本编码器
错误检测
拼音
算法
多语言
自然语言
机制
数据
解码
语音