摘要
本发明公开了一种领域中文语言预训练模型构建的方法,其包括:构建领域的实体词库,所述实体词库包括实体词以及实体关系;获取训练文本数据,对所述训练文本数据进行遮罩处理和词向量嵌入处理,得到对应的词向量序列;根据词向量序列、空间关系位置编码序列和包含有实体关系的两个句子的正序列和负序列,对基于多层Transformer模型的RoBERTa模型进行训练得到训练完成的预训练模型,将所述预训练模型接入相对应的下游任务,实现下游任务迁移。本发明能够有效提取专业领域知识以及提升对专业领域的语义理解。
技术关键词
训练文本数据
预训练模型
关系
实体
序列
词向量嵌入方法
样本
语句
线性
标志
专业
编码
语义
网络
参数
系统为您推荐了相关专利信息
指标统计方法
计算机可执行指令
参数
指标统计装置
计算机程序产品
涡轮流量计
精度控制方法
函数关系模型
轴承座温度
存储单元
业务流程构建方法
自然语言
命名实体识别技术
验证业务逻辑
构建系统