一种领域中文语言预训练模型构建的方法

正文

推荐专利

一种领域中文语言预训练模型构建的方法

申请号：CN202410858178

申请日期：2024-06-28

公开号：CN118709691A

公开日期：2024-09-27

类型：发明专利

摘要

本发明公开了一种领域中文语言预训练模型构建的方法，其包括：构建领域的实体词库，所述实体词库包括实体词以及实体关系；获取训练文本数据，对所述训练文本数据进行遮罩处理和词向量嵌入处理，得到对应的词向量序列；根据词向量序列、空间关系位置编码序列和包含有实体关系的两个句子的正序列和负序列，对基于多层Transformer模型的RoBERTa模型进行训练得到训练完成的预训练模型，将所述预训练模型接入相对应的下游任务，实现下游任务迁移。本发明能够有效提取专业领域知识以及提升对专业领域的语义理解。

技术关键词

训练文本数据预训练模型关系实体序列词向量嵌入方法样本语句线性标志专业编码语义网络参数

系统为您推荐了相关专利信息

基于数字孪生的生产线模拟方法及相关设备

逻辑虚拟三维模型数字孪生时序拓扑图

一种指标统计方法、装置、设备和存储介质

指标统计方法计算机可执行指令参数指标统计装置计算机程序产品

一种配网故障区间定位暂态数据的相位确定方法及相关装置

工频相位序列配网故障波形中心站

一种涡轮流量计精度控制方法及装置

涡轮流量计精度控制方法函数关系模型轴承座温度存储单元

基于流程引擎的业务流程构建方法及系统

业务流程构建方法自然语言命名实体识别技术验证业务逻辑构建系统

一种领域中文语言预训练模型构建的方法

站点导航

APP 下载