摘要
本发明公开了一种基于思维链增强与混合专家架构的地质领域命名实体精准识别与分类方法,其特征在于:首先通过OCR技术提取地质文档文本数据,并利用本地部署的大型语言模型提取结构化实体数据;随后调用本地大模型根据地质领域语言风格生成多样化句式模板,将提取的专业实体填充至模板中,构建指令微调数据集;进一步在此基础上构建思维链(CoT)增强数据集,显式模拟专家推理过程;创新性地结合低秩适应(DoRA)技术与混合专家(MoE)架构对大模型进行高效微调,其中DoRA技术对解码器层和多层感知机的权重矩阵进行降维分解与正交变换,MoE架构则构建多个专用子网络增强多任务处理能力;最后使用微调后的模型对地质文档进行实体抽取,输出包含推理过程的识别结果,并通过规则匹配机制对结果进行过滤与完善。本发明有效解决了地质领域命名实体边界模糊、语义不明确和分类困难等问题,显著提升了地质领域命名实体识别与分类的准确率,为地质资源勘探、矿产评估等下游应用提供了关键技术支持。
技术关键词
命名实体识别
分类方法
正交变换技术
光学字符识别技术
地质资源勘探
多层感知机
负载均衡算法
数据
矩阵
专用参数
语义
填充算法
指令
解码器
分类特征
模板
专业
机制
系统为您推荐了相关专利信息
运维优化方法
命名实体识别技术
图谱
语义
可视化组件
节点
语义实体
上下文特征
命名实体识别模型
序列