解决英文实体识别token数量与word数量不一致的方法

正文

推荐专利

申请号：CN202411676784

申请日期：2024-11-21

公开号：CN119558317A

公开日期：2025-03-04

类型：发明专利

摘要

本发明属于自然语言处理技术领域，且公开了解决英文实体识别token数量与word数量不一致的方法，该方法具体步骤如下：S1:句子预处理与单词级别打标签；S2:字母组合切分；S3:词嵌入；S4:上游模型处理；S5:池化操作：S6:下游模型处理：S7:输出标签序列。本发明通过优化处理流程，成功解决了字母组合级标注导致的资源浪费问题，避免了不必要的计算开销，同时，该方案还克服了单词级别预测中单词与字母组合对应关系难以学习的难题，确保了模型更准确地捕捉文本内部的语义和形态信息，实验结果显示，采用字母组合级别的处理方法相较于传统方法，在性能上实现了显著提升，准确率提高了3个百分点。

技术关键词

矩阵序列命名实体识别打标签中文分词算法自然语言编码组织语义解码文本形态代表决策格式关系列表

系统为您推荐了相关专利信息

基于大语言模型的科技报告技术社区语义解析方法及系统

语义解析方法大语言模型动态数据集分层注意力多模态

一种基于里程轮和IMU的管道机器人定位方法、系统、装置及介质

管道机器人定位初始姿态角互补滤波算法脉冲数据

一种新能源汽车电气设备检测系统及方法

电气设备检测系统新能源汽车故障预测模型维修现场数据采集单元

一种基于蓝牙通信的卡车锂电池测试方法及装置

电池运行状态工况特征智能校准性能测试报告锂电池管理系统

一种基于视觉数据的既有损伤空心板梁桥自动有限元建模与性能评估方法

三维点云数据空心板梁桥性能评估方法尺寸自动测量方法生死单元法

解决英文实体识别token数量与word数量不一致的方法

站点导航

APP 下载