摘要
本发明涉及深度学习技术领域,公开了利用深度学习的烟草行业文档自动分类与存储方法,包括以下步骤:模型选择;模型预训练过程:MLM阶段、动态掩码生成阶段;数据准备与预处理:数据收集、文档格式转换、文本清洗、分词处理、停用词去除、数据增强;模型微调策略:定义任务特定的模型架构、选择合适的损失函数和优化器、参数设置和调整策略;模型微调过程:数据分批处理、早停法;实体识别与标签化;性能评估:数据集构建、性能评估指标、对比模型设置、实验环境;实验结果:文档分类任务、相似文档检索任务、训练和推理时间。本发明通过微调RoBERTa预训练模型,使其具有强大的上下文理解能力、灵活的微调能力、高效的数据处理能力,还改善了用户体验。
技术关键词
存储方法
中文分词工具
文档分类
模型预训练
文本
高性能计算环境
数据
机器学习分类器
信息处理机制
优化器
知识库系统
策略
命名实体识别
自动标签
深度学习技术
周期
格式化
停用词表
预训练模型
系统为您推荐了相关专利信息
语音交互方法
语种识别
文本
语音特征
非暂态计算机可读存储介质
训练数据生成方法
答案
计算机程序产品
关键词
编码向量