一种古文文本语义理解分隔方法及系统

正文

推荐专利

一种古文文本语义理解分隔方法及系统

申请号：CN202411963910

申请日期：2024-12-30

公开号：CN119886134B

公开日期：2025-08-01

类型：发明专利

摘要

本发明属于文本处理技术领域，提供了一种古文文本语义理解分隔方法及系统；包括：S1、收集并生成古文语料数据集；S2、进行数据预处理，并划分为训练集和验证集；S3、将训练集输入至Llama3.2模型进行训练，扩展模型的词汇表；S4、利用扩展后的模型词汇表重新初始化词嵌入层，得到扩展Llama3.2模型；S5、生成优化后的古文标注语料集；S6、扩展Llama3.2模型进行训练和调整；S7、使用验证集对模型进行评估和再次调整；S8、使用自适应优化算法对模型的参数进行优化，生成分隔模型；S9、将古文文本输入至分隔模型，对古文文本进行古文分词和词性标注。本发明可以提升古文分词的准确性，实现精准的词性标注，适用于复杂的古文语法结构，支持多场景应用扩展。

技术关键词

分隔方法分词数据处理模块模型预测值语义扩展模块训练集语法结构样本文本处理技术支持多场景更新模型参数分隔系统输出模块序列标签

一种古文文本语义理解分隔方法及系统

站点导航

APP 下载