摘要
本发明涉及一种基于多标注者的越南语依存句法分析方法、系统、电子设备,属自然语言处理领域。本发明利用无标注数据对XLM RoBERTa模型的参数进行微调。接着使用UD树库训练一个初始的越南语依存句法分析模型,将句子输入该模型进行解析,生成含有噪声的伪数据。将这些伪数据输入到预先设计的提示模板中,利用大语言模型DeepSeek进行二次标注,通过提示学习逐步修正噪声数据,输出高质量的标注结果。最后,将二次标注后的伪数据作为额外的训练语料,与原始标注数据结合,训练新的越南语句法分析模型。本发明通过引入伪数据增强和多标注者协同优化机制,显著提升了模型在越南语依存句法解析任务中的性能。
技术关键词
依存句法分析方法
依存句法树
无标签数据
上下文语义信息
生成树
电子设备
模板
预训练模型
大语言模型
字符
噪声数据
多语言
自然语言
处理器
高层次
解码
系统为您推荐了相关专利信息
医疗知识图谱
医疗实体识别
上下文语义信息
计算机可读指令
节点
信号特征
负荷识别方法
特征提取网络
生理信号识别
K近邻分类器
多任务学习模型
编码特征
监督学习模型
图像分析方法
无标签数据
监督分割方法
深度学习网络模型
解码模块
内支架
解码器