摘要
本发明属于文本处理技术领域,提供了一种古文文本语义理解分隔方法及系统;包括:S1、收集并生成古文语料数据集;S2、进行数据预处理,并划分为训练集和验证集;S3、将训练集输入至Llama3.2模型进行训练,扩展模型的词汇表;S4、利用扩展后的模型词汇表重新初始化词嵌入层,得到扩展Llama3.2模型;S5、生成优化后的古文标注语料集;S6、扩展Llama3.2模型进行训练和调整;S7、使用验证集对模型进行评估和再次调整;S8、使用自适应优化算法对模型的参数进行优化,生成分隔模型;S9、将古文文本输入至分隔模型,对古文文本进行古文分词和词性标注。本发明可以提升古文分词的准确性,实现精准的词性标注,适用于复杂的古文语法结构,支持多场景应用扩展。
技术关键词
分隔方法
分词
数据处理模块
模型预测值
语义
扩展模块
训练集
语法结构
样本
文本处理技术
支持多场景
更新模型参数
分隔系统
输出模块
序列
标签