一种基于大模型迁移和自优化合成数据增强的跨语言依存句法分析方法

正文

推荐专利

申请号：CN202510379408

申请日期：2025-03-28

公开号：CN120297264A

公开日期：2025-07-11

类型：发明专利

摘要

本发明涉及一种基于大模型迁移和自优化合成数据增强的跨语言依存句法分析方法，属于自然语言处理领域。首先，本发明一方面，设计了细粒度的句法解析指令引导大模型识别跨语言的句法共性与差异性信息来生成基于大模型的伪数据；另一方面，训练了一个跨语言句法解析器也用于生成基于跨语言句法解析器的伪数据；然后，设计迭代式自优化算法让大模型融合两类伪数据优势，从而得到高质量的合成数据；本发明有效实现了大模型语义理解优势与传统模型结构解析优势的有机融合，深入地挖掘了不同语言地句法共性和差异，不仅显著提升了目标低资源语言依存解析的准确率，还构造了高质量的合成句法树库，为跨语任务提供了更多的便捷。

技术关键词

依存句法分析方法解析器数据长短时间记忆网络非暂态计算机可读存储介质多层感知机低资源语言语义带标签处理器节点计算机程序产品多语言自然语言指令存储器编码算法

一种基于大模型迁移和自优化合成数据增强的跨语言依存句法分析方法

站点导航

APP 下载