利用深度学习的烟草行业文档自动分类与存储方法

AITNT
正文
推荐专利
利用深度学习的烟草行业文档自动分类与存储方法
申请号:CN202410841894
申请日期:2024-06-27
公开号:CN118916484A
公开日期:2024-11-08
类型:发明专利
摘要
本发明涉及深度学习技术领域,公开了利用深度学习的烟草行业文档自动分类与存储方法,包括以下步骤:模型选择;模型预训练过程:MLM阶段、动态掩码生成阶段;数据准备与预处理:数据收集、文档格式转换、文本清洗、分词处理、停用词去除、数据增强;模型微调策略:定义任务特定的模型架构、选择合适的损失函数和优化器、参数设置和调整策略;模型微调过程:数据分批处理、早停法;实体识别与标签化;性能评估:数据集构建、性能评估指标、对比模型设置、实验环境;实验结果:文档分类任务、相似文档检索任务、训练和推理时间。本发明通过微调RoBERTa预训练模型,使其具有强大的上下文理解能力、灵活的微调能力、高效的数据处理能力,还改善了用户体验。
技术关键词
存储方法 中文分词工具 文档分类 模型预训练 文本 高性能计算环境 数据 机器学习分类器 信息处理机制 优化器 知识库系统 策略 命名实体识别 自动标签 深度学习技术 周期 格式化 停用词表 预训练模型
系统为您推荐了相关专利信息
1
一种基于分层问句生成与自博弈的数据扩充方法
数据扩充方法 语句 自然语言 序列 分层
2
一种基于超图注意神经网络的多模态社会关系抽取方法
节点特征 多模态 亲和力 图像 脸部特征
3
语音交互方法、装置、电子设备和存储介质
语音交互方法 语种识别 文本 语音特征 非暂态计算机可读存储介质
4
长文本训练数据生成方法、相关装置及计算机程序产品
训练数据生成方法 答案 计算机程序产品 关键词 编码向量
5
长文本智能化输出引用系统
语义图谱 时间差 格式 时效性 分析模块
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号