一种结合句法信息和预训练语言模型的中文文本语法纠错方法

正文

推荐专利

申请号：CN202411669276

申请日期：2024-11-21

公开号：CN119578411B

公开日期：2025-09-30

类型：发明专利

摘要

本发明公开了一种结合句法信息和预训练语言模型的中文文本语法纠错方法，通过在预训练语言模型Chinese BART中融入句法信息，可有效提升中文语法纠错能力。该方法包括以下步骤：导入数据集并转换为目标格式；利用HanLP生成句法信息，将词性标签和依存关系转化为向量，与默认词嵌入进行融合；编码阶段使用句法增强的多头自注意力机制及残差网络；解码阶段利用自注意力机制和编码器‑解码器注意力机制结合句法信息进行生成，结合残差网络让解码器逐步优化；使用Beam Search来生成多个候选句，依据句法一致性和语义合理性选取最优候选句。本发明通过结合句法信息和预训练语言模型，让模型学习句子的语义信息并关注句法结构，有助于提升模型的中文语法纠错能力。

技术关键词

句法信息交互注意力训练语言模型中文文本解码器纠错方法编码器注意力机制句法依存关系残差网络标签句法结构自然语言依存句法树矩阵前馈神经网络数据

系统为您推荐了相关专利信息

基于RandLA-Net的电力廊道点云语义分割方法及系统

点云语义分割方法标签类别数据邻域特征 K近邻算法

交互图像生成模型、交互图像的生成方法、装置及设备

交互特征物体纹理特征网络注意力

一种序列模型编辑方法、装置、电子设备及存储介质

模型编辑方法关键词序列计算机可执行指令矩阵

一种基于交叉伪监督半监督的急流轴自动提取方法

半监督深度学习标签图像分割图像编码数据风速

基于多模态大模型的芯片陶瓷封装基板表面缺陷检测方法

陶瓷封装基板表面缺陷检测方法融合特征文本像素

一种结合句法信息和预训练语言模型的中文文本语法纠错方法

站点导航

APP 下载