摘要
本发明涉及一种基于联合优化训练的越南语依存句法树库构建方法,属自然语言处理领域。本发明包括:利用中文、英文和越南语实验数据分别训练出三个双仿射依存句法分析模型,分别为中文模型、英文模型和越南语模型。利用训练好的三个双仿射依存句法分析模型解析出越南语无标注文本对应的依存句法树,并将越南语模型解析的结果作为参考标准,对中文模型、英文模型解析结果进行筛选。利用筛选的数据重新迭代优化三个双仿射依存句法分析模型并进行进一步的数据改选,从而构建高质量的越南语依存句法树库。该方法可以缓解越南语依存句法数据稀缺的问题,从而显著提升越南语依存句法分析的性能。
技术关键词
依存句法树
依存句法分析
库构建方法
预训练语言模型
长短时间记忆网络
数据
多语言
Softmax函数
比例计算方法
加权特征
分词
标签
字符
核心
多层感知器
缩放参数
人工标记
构建系统
自然语言
系统为您推荐了相关专利信息
融合知识图谱
决策系统
知识图谱构建
语义向量
SimHash算法
实体间关系
预训练语言模型
语义相关度
输出模块
聚类
动态反馈系统
预测系统
多模态数据采集
特征工程
时序特征
信息抽取方法
前馈神经网络
状态机
双向注意力机制
编码器