摘要
一种基于持续学习的林业预训练语言模型构建方法,属于人工智能及计算机程序技术领域。林业语料库的构建:采用网络爬虫、数据库查询和信息提取方法从中国林业信息网、林业类北大核心期刊渠道收集与林业相关的术语、法律法规、文献三个主题的文本数据,并对其进行去除特殊符号、重复值以及分词等数据清洗和预处理后,得到三个用于预训练的林业语料库,并使用这三个不同主题的林业语料库,基于持续学习方法对通用领域的预训练语言模型BERT进行持续预训练,增强通用领域预训练语言模型在林业领域内的知识,最终形成能够持续学习的林业预训练语言模型ForestryBERT。
技术关键词
预训练语言模型
林业
主题
持续学习方法
信息提取方法
文本
数据
计算机程序技术
答案
术语
预训练方法
样本
标签
爬虫
注意力机制
期刊
分词
渠道
阶段
系统为您推荐了相关专利信息
持续学习方法
智能客服系统
适配器
在线学习算法
节点
疾病诊断信息
诊断报告生成方法
生成模型训练方法
图像
双向长短期记忆网络