一种基于持续学习的林业预训练语言模型构建方法

正文

推荐专利

申请号：CN202411026587

申请日期：2024-07-29

公开号：CN118886517B

公开日期：2025-08-05

类型：发明专利

摘要

一种基于持续学习的林业预训练语言模型构建方法，属于人工智能及计算机程序技术领域。林业语料库的构建：采用网络爬虫、数据库查询和信息提取方法从中国林业信息网、林业类北大核心期刊渠道收集与林业相关的术语、法律法规、文献三个主题的文本数据，并对其进行去除特殊符号、重复值以及分词等数据清洗和预处理后，得到三个用于预训练的林业语料库，并使用这三个不同主题的林业语料库，基于持续学习方法对通用领域的预训练语言模型BERT进行持续预训练，增强通用领域预训练语言模型在林业领域内的知识，最终形成能够持续学习的林业预训练语言模型ForestryBERT。

技术关键词

预训练语言模型林业主题持续学习方法信息提取方法文本数据计算机程序技术答案术语预训练方法样本标签爬虫注意力机制期刊分词渠道阶段

系统为您推荐了相关专利信息

一种面向语言模型智能客服助理系统的高效持续学习方法

持续学习方法智能客服系统适配器在线学习算法节点

一种金融数据智能录入与验证方法

原始文档图像验证方法语义向量字段语义结构

多图像融合的诊断报告生成方法、模型训练方法及设备

疾病诊断信息诊断报告生成方法生成模型训练方法图像双向长短期记忆网络

基于多模态大模型的新闻图像定制化描述生成方法及装置

多模态生成方法自定义规则三元组图像

一种融合Ochiai指数和网络表示学习的数据主题推荐方法

主题推荐方法个性化主题网络指数数据

一种基于持续学习的林业预训练语言模型构建方法

站点导航

APP 下载