利用深度学习的烟草行业文档自动分类与存储方法

正文

推荐专利

申请号：CN202410841894

申请日期：2024-06-27

公开号：CN118916484A

公开日期：2024-11-08

类型：发明专利

摘要

本发明涉及深度学习技术领域，公开了利用深度学习的烟草行业文档自动分类与存储方法，包括以下步骤：模型选择；模型预训练过程：MLM阶段、动态掩码生成阶段；数据准备与预处理：数据收集、文档格式转换、文本清洗、分词处理、停用词去除、数据增强；模型微调策略：定义任务特定的模型架构、选择合适的损失函数和优化器、参数设置和调整策略；模型微调过程：数据分批处理、早停法；实体识别与标签化；性能评估：数据集构建、性能评估指标、对比模型设置、实验环境；实验结果：文档分类任务、相似文档检索任务、训练和推理时间。本发明通过微调RoBERTa预训练模型，使其具有强大的上下文理解能力、灵活的微调能力、高效的数据处理能力，还改善了用户体验。

技术关键词

存储方法中文分词工具文档分类模型预训练文本高性能计算环境数据机器学习分类器信息处理机制优化器知识库系统策略命名实体识别自动标签深度学习技术周期格式化停用词表预训练模型

系统为您推荐了相关专利信息

一种基于分层问句生成与自博弈的数据扩充方法

数据扩充方法语句自然语言序列分层

一种基于超图注意神经网络的多模态社会关系抽取方法

节点特征多模态亲和力图像脸部特征

语音交互方法、装置、电子设备和存储介质

语音交互方法语种识别文本语音特征非暂态计算机可读存储介质

长文本训练数据生成方法、相关装置及计算机程序产品

训练数据生成方法答案计算机程序产品关键词编码向量

长文本智能化输出引用系统

语义图谱时间差格式时效性分析模块

利用深度学习的烟草行业文档自动分类与存储方法

站点导航

APP 下载