摘要
本发明涉及一种基于大模型迁移和自优化合成数据增强的跨语言依存句法分析方法,属于自然语言处理领域。首先,本发明一方面,设计了细粒度的句法解析指令引导大模型识别跨语言的句法共性与差异性信息来生成基于大模型的伪数据;另一方面,训练了一个跨语言句法解析器也用于生成基于跨语言句法解析器的伪数据;然后,设计迭代式自优化算法让大模型融合两类伪数据优势,从而得到高质量的合成数据;本发明有效实现了大模型语义理解优势与传统模型结构解析优势的有机融合,深入地挖掘了不同语言地句法共性和差异,不仅显著提升了目标低资源语言依存解析的准确率,还构造了高质量的合成句法树库,为跨语任务提供了更多的便捷。
技术关键词
依存句法分析方法
解析器
数据
长短时间记忆网络
非暂态计算机可读存储介质
多层感知机
低资源语言
语义
带标签
处理器
节点
计算机程序产品
多语言
自然语言
指令
存储器
编码
算法